#AI 大語言模型
騰訊“坐不住”了,官宣大牛負責AI
騰訊今日對外確認,姚順雨(Vinces Yao)已正式出任騰訊“CEO/總裁辦公室”首席AI科學家,直接向騰訊總裁劉熾平匯報。在此角色之外,他兼任騰訊AI基礎設施(AI Infra)與大語言模型部負責人,並在大模型組織架構調整中承擔核心職責。此任命標誌著騰訊在AI研發體系的戰略聚焦。有媒體報導,騰訊近期完成了一次組織調整,正式新成立AI Infra部、AI Data部、資料計算平台部。姚順雨畢業於國內頂尖的清華“姚班”電腦科學精英班,後在美國普林斯頓大學獲得電腦科學博士學位,並在機器學習與大規模語言模型研究領域積累深厚科研成果。他曾擔任OpenAI研究員,參與智能體(Agent)與大規模AI系統設計的前沿工作。這樣的學術與工程交融背景,是其被騰訊重用的關鍵原因。題外話,據傳當年清華同一屆有三位同學都叫“姚順雨/宇”!2019年他們一起畢業:一個是本文所指的主角,清華姚班的AI大神,本科rap社創始人,後來普林斯頓博士畢業進OpenAI搞大模型,最近去了騰訊;一個是物理天才,本科拿特獎在頂刊發論文,後來跑去Stanford念PhD,又加入Anthropic搞AI,剛離職加入 Google;還有一個是人文學院的才女,雙學位加身。這名字是不是和“堯舜禹”有大神般的玄學?騰訊為何“坐不住”了:大模型競賽加速騰訊近期發佈了混元大模型最新版本Tencent HY 2.0,採用混合專家(MoE)架構、支援超長上下文等領先指標,並已接入公司內多項產品與雲服務。然而在AI領域,競爭持續加劇:友商壓力:阿里巴巴旗下的通義千問(Qwen系列)持續推出高規格模型,在中國市場與國際競賽中都有顯著存在感。即便談到應用場景,豆包的體驗口碑也越來越不錯,加上千問和靈光的騰空而出,當它們的下載數量快速增長超過千萬等級時,騰訊的各大產品未來是否有足夠的“網路效應”都不好說。就連小米也挖了“天才少女”羅福莉(當然,羅福莉本人反對網路神化她)。國際對手:Google等發佈的Gemini-系列模型(例如Gemini 3 Pro)展示了在推理能力與多模態能力方面的提升,引發全球AI開發者關注並對中國AI廠商提出競爭壓力。在這樣的背景下,騰訊不能僅靠應用場景護城河(如微信生態、QQ、遊戲等),“基礎模型能力”的競爭已是核心戰場。因此通過引進頂尖研究人才來強化模型底層架構與演算法研究,是一次戰略升級訊號。這也是對市場競爭壓力與AI生態擴展趨勢的直接回應。姚順雨理念與對騰訊AI實力的潛在影響雖然公開報導中較少具體引言,但從其在OpenAI的工作看:他是“語言智能體(Agent)”研究與執行框架的實踐者,這類框架強調模型在真實世界環境中“感知—推理—行動”的能力。這類能力正是下一代AI產品差異化競爭的關鍵——不只是回答問題,而是驅動真實複雜任務執行。作為首席AI科學家,姚順雨的核心理念可概括為:提升模型在實際環境中的智能執行能力與可擴展性,從基礎演算法研究到AI產品落地的全鏈條能力強化。從OpenAI經驗來看,他強調智能體驅動的決策推理與多工泛化能力,這將有助騰訊從工程實現者向科研與技術驅動者並進。預計這種轉型將帶來:更具通用智能與大規模推理能力的大模型架構更高效的AI訓練與推理基礎設施在未來騰訊各大產品線中實現更深度AI功能融合如果進展順利,底層AI的能力將惠及騰訊旗下所有的業務線,特別是微信這樣的超級app,反過來說,騰訊也不得不快速行動了,只靠短影片已經不夠撐起微信未來的想像力了。市場反應與騰訊股價表現截至2025年12月17日收盤,騰訊控股(0700.HK)股價約 605.00 港元,較前一交易日上漲約 1.4% 左右。該股在過去一周內經歷小幅波動,但整體維持在 590 —— 615 港元區間震盪,並明顯高於年初低點,反映投資者對核心業務持續增長及AI戰略佈局的謹慎樂觀態度。歷史資料顯示騰訊股價在過去一個月雖有調整,但並未出現明顯下跌趨勢。AI競爭加速與中國科技股回暖預期是推動騰訊股價表現的潛在因素之一。同時,技術與產品發展進度、政策環境與宏觀經濟走勢均將繼續影響後續股價走勢。近期有海外資金持續流入中國AI相關類股,亦為市場提供支撐。小結據The Information近期報導,騰訊正在高價搶奪字節跳動的AI團隊,在過去數月裡,以加倍薪資積極挖角字節旗下的頂尖AI人才。根據36氪報導,《智能湧現》瞭解到,如今領導AI Infra部、大語言模型部負責人的姚順雨在加入騰訊後,已經幫助混元招募到了更多的人才,如字節、阿里、AI六小虎(Kimi、MiniMax、智譜、階躍星辰、百川、零一萬物)中的數位核心員工。騰訊本次對AI人才與研發架構的戰略調整,透露出它在AI基礎技術競爭中的“坐不住感”。從聚焦場景生態到強化底層智能協議與模型能力,騰訊正試圖在新一輪AI競賽中搶佔更有利位置。而姚順雨作為“連結科研與產品實現”的關鍵人物,其理念與背景或將為騰訊AI實力帶來實質性提升。股價在此消息刺激下的小幅走強,也反映出市場對騰訊AI戰略潛力的認可。 (首席商業評論)
AI泡沫要破?巨佬顛覆認知的觀點來了!
大模型的決戰越來越激烈了!Google的崛起令OpenAI感到恐懼,並醞釀新的大動作!OpenAI直接拉響警報,推遲賺錢的廣告業務,也要把所有資源梭哈到ChatGPT的改進上。現在的AI圈子,像是星球大戰前夜,由於恐懼,每個人都把手指扣在了扳機上。兵荒馬亂的年代,蔡崇信在香港大學爐邊對話中,拋出了非常反直覺的觀點:現在美國人定義誰贏得AI競賽的方式,純粹是看大型語言模型,我們不看美國定義的AI競賽。當所有人都在盯著誰的模型參數大、誰的算力強時,蔡崇信卻認為——勝負手根本不在這裡。如果不看模型,這場兆賭局的贏家到底看什麼?中國手裡到底還有沒有牌?看完發現,原來大佬眼裡的世界,和我們看到的完全不一樣。1中國AI的真正優勢現在美國矽谷大模型怎麼算輸贏?很簡單:看誰的“大語言模型”更強、更聰明、參數更多。今天是OpenAI遙遙領先,明天Anthropic發個新版本追平,後天Google又搞個大新聞。大家都在卷模型,彷彿誰的模型智商高了一點,誰就統治了世界。但在蔡崇信看來,事實未必如此。他在演講中說了這麼一句極具穿透力的話:"The winner is not about who has the best model. The winner is about who could use it the best in their own industries, in their own lives."(真正的贏家不是誰擁有最好的模型,而是誰能在自己的行業、自己的生活中把它用得最好)這句話什麼意思?打個比方。如果這是一場賽車比賽,美國人現在拚命在比誰的發動機馬力大。但蔡崇信告訴你,贏家不是那個造出萬匹馬力發動機的人,而是那個能把發動機裝進車裡、開著車去送貨、去載客、去賺到真金白銀的人。這個判斷的底層邏輯是:AI的真正價值在於滲透率。中國國務院的AI規劃就體現了這一務實思路——到2030年,AI智能體和裝置的普及率達到90%。中國憑什麼能普及得更快?蔡崇信列出了幾個核心底層邏輯。我們總擔心晶片被卡死,但蔡崇信告訴我們:決定勝負的,是那些基礎到你根本不會關注的領域。1.被低估的電力成本AI訓練和推理,本質上是在燒電。中國的電力成本,比美國低40%。為什麼?中國的國家電網每年投入900億美元的資本支出,而美國只有300億美元。電費低40%,意味著AI應用成本可以大幅低於對手。這是最基礎、最硬核的AI能源優勢。2.建造資料中心的成本低60%在中國建造資料中心的成本要便宜60%,這還不包括購買晶片、廉價GPU的成本。3.工程師紅利晶片可以封鎖,但人才你鎖不住。全球範圍內,幾乎近一半的AI科學家和研究人員擁有中國大學的學位——無論他們在美國公司、中國公司還是世界任何地方工作。蔡崇信說在最近剛看到一個社交媒體帖子,一個在Meta工作的非華裔員工抱怨說,他所在的AI團隊每個人都在說中文,用中文交流想法,他聽不懂。這意味著很多想法的分享和交流在全球AI領域正在用中文進行。這是第一次,中文成為一種優勢!現在,懂中文在AI世界變成了一個優勢。4.最反直覺的優勢:匱乏,逼出內功這是最讓人熱血沸騰的一點:缺乏頂級GPU,反而創造了“飢餓優勢”。美國人資源充足,程式碼寫得爛一點也沒關係,硬體能扛。但中國團隊呢?硬體受限,就必須在系統層面、演算法層面做到極致最佳化,把效率摳到最高。蔡崇信特別點名了爆火的DeepSeek。他說這就是被逼出來的奇蹟。2開源為什麼會贏?蔡崇信還給出了一個對未來的深度判斷,也是這場演講的重中之重。蔡崇信相信中國公司對待大語言模型的方法——即開源——將加速AI的採用,並將真正實現AI的普及,從而使更廣泛的社會受益。開源如此重要的原因是,它成本低廉,使用開源模型實際上不花一分錢。AI的未來,是像OpenAI那樣搞“黑箱子”(閉源),還是像阿里、Meta那樣搞開源?蔡崇信斬釘截鐵:開源模型,將擊敗閉源模型。為什麼?不是因為開源技術更先進,而是因為它更懂人性。他舉了一個極其生動的例子:假設你是沙烏地阿拉伯的國王,你想發展自己國家的AI,你有兩個選擇:用OpenAI的API:你得付一大筆錢,把你的資料傳給美國公司。然後呢?你不知道他們怎麼處理你的資料,你也不知道這模型裡面有什麼貓膩。這就是一個Black Box(黑箱)。用開源模型(比如阿里的Qwen):你直接下載程式碼,部署在你自己的私有雲上。免費,而且資料不出國門,完全可控。這就叫"主權AI",意思是它是我們自主開發的AI。在全球地緣政治這麼複雜的今天,誰願意把命脈交到別人手裡?無論是政府還是大企業,只要稍微算一下帳,稍微考慮一下安全,都會傾向於開源。開源模型有三大殺手鐧:成本、主權、隱私。這三座大山,是閉源模型很難跨越的。3AI時代,普通人該如何應對?蔡崇信給了三條極具實操性的建議,特別是關於“學什麼”,他的觀點顛覆了很多人的認知。1.提出正確的問題比回答更重要在技能方面,蔡崇信認為要學習如何獲取知識,學習如何分析和思考,還有一個重要的技能是提出正確的問題。以前我們上學,老師獎勵那些能快速回答問題的人。但在AI時代,回答問題是機器的事,機器的知識庫比你大多了。蔡崇信強調:"Asking the right question is more important than finding the answer." (提出正確的問題,比找到答案更重要)你要學會的是如何給AI下指令,如何拆解問題。這叫“Prompt Engineering”(提示工程),這是未來人類的核心競爭力。2.還要不要學程式設計?這是目前爭議最大的話題。輝達的老黃說“以後沒人需要學程式設計了”,對著手機說話就行。蔡崇信反對這個觀點。他說:要學!必須學!但他給出的理由:"The purpose is not to actually operate a machine. The purpose is going through that thinking process."(目的不是為了去操作機器,而是經歷那個思考過程)學程式設計,不是為了讓你去寫程式碼(那活兒AI幹得比你好),而是為了訓練你的邏輯思維。甚至,他建議大家去學好Excel電子表格。為什麼?因為你要把一個複雜的公式寫對,讓數字自動跑出來,這本身就是一種嚴密的邏輯訓練。你要訓練的是腦子,而不是手速。3.選什麼專業?如果你的孩子現在要上大學,蔡崇信推薦了三個方向:資料科學:其實就是統計學的升級版。未來是資料爆炸的時代,世界越數位化,你或公司獲取的資料就越多,理解如何管理和分析資料非常重要。心理學和生物學:在做了資料之後,你還想觸及人性的一面,心理學的研究很重要。心理學和生物學幫助你理解人腦是如何工作的,它仍然是最高效、最節能的"機器",理解大腦如何工作非常重要。材料科學:現在很多孩子不學電腦科學,而是在學材料科學。未來世界正被位元(數字資訊)主導,但未來讓位元移動更快的是原子(物理材料)。理解原子如何工作將會非常重要,人們製造半導體,未來半導體領域將會有很多創新。所以材料科學將是一個有趣的學習方向。4AI是泡沫還是未來?AI是否是下一個網際網路泡沫?蔡崇信的回答很哲學,關於泡沫,他認為有兩個概念:真正的泡沫和金融市場泡沫。金融市場泡沫:不知道是否存在金融市場泡沫,因為股票估值更像一門藝術。即使有既定的理論,你可以給一隻股票50倍的市盈率,因為你認為增長率非常高,這合理嗎?我不知道,可能存在與AI相關的金融市場泡沫。技術泡沫:AI現像是真實的。人們正在建造的所有基礎設施,投入到模型開發中的所有研發資源,都不會浪費,因為這是一個真實的現象。就像網際網路一樣,在2000年3月左右,網際網路泡沫破裂了,那是金融市場泡沫破裂,但今天的網際網路就在這裡,事實上網際網路現在更強大,所以技術本身不是泡沫。蔡崇信的這次演講,給人最大的感受是,這場比賽才剛剛開始。這不是一場百米衝刺,看誰起跑快;這是一場馬拉松,看誰能把技術真正融入到這片土地的每一個角落,看誰能用更便宜的電、更務實的態度、更開放的胸懷,去擁抱這個未來。"Focus on the application, not just the model."(關注應用,而不只是模型)這,或許才是中國AI破局的真正答案。對於個人來說,也許在未來,AI將成為成為我們的夥伴。正如蔡崇信所言:AI的下一個重大轉變是當人們開始不再僅僅將AI視為工具,而是作為朋友。現在AI似乎更像一個工具,我們都想用它來讓自己更高效,讓公司更高效。AI已經在幫助我們編碼,所以我們不需要那麼多軟體工程師。但是,AI何時能成為你的夥伴?那時,如果大多數人開始像對待另一個人一樣看待AI,那將真正改變世界,改變行為。有時想想這很可怕,但我看到這正在發生。 (ETF進化論)
AI教母李飛飛引爆矽谷!LLM大語言模型路線錯了,空間智能才是走向AGI的唯一路徑 | 附原文
“它們如同身處暗室的文字巨匠——能言善辯卻缺乏經驗,知識淵博卻脫離現實。”當“AI教母”、頂尖科學家李飛飛用這句話來定義今天所有的大語言模型時,她一針見血地指出了一個殘酷的現實:儘管AI看似無所不能,但它們其實都“活在黑暗中”。它們會寫詩、會畫畫,甚至會製作以假亂真的視訊,但卻無法理解一個杯子旋轉90度後會是什麼樣子,也無法讓一個虛擬人真正地遵守物理定律。在李飛飛看來,這種窘境的根源在於,我們一直以來都走錯了方向。AI的下一步,不是更大的語言模型,而是要賦予它們一種連嬰兒都與生俱來的能力——空間智能 (Spatial Intelligence)。 這,才是通往真正通用人工智慧的唯一路徑。01. 靈魂拷問:為什麼AI還是“睜眼瞎”?原文很長,我們先來點直觀的。你讓AI寫首詩,它分分鐘變身李白杜甫;但你讓AI做幾個簡單的物理題,比如:· “我把這個杯子轉90度,它長什麼樣?”· “這個迷宮的出口在那裡?”· “估算一下桌子到門的距離?”AI的回答,基本靠“蒙”。只要留意,那些看起來很酷的AI視訊裡,都會有各種“穿幫”鏡頭:一個人的手突然多了一根手指,或者物體毫無徵兆地穿牆而過。李飛飛就此一針見血地指出:因為它們不懂物理世界。它們無法真正理解距離、大小、方向和物理規律。所以,儘管我們對AI的期待是科幻電影裡的全能管家,但現實卻是:· 我們依然沒有能在家幫我們做家務的機器人。· AI在藥物研發、新材料發現等需要理解3D結構的領域,進展緩慢。· AI無法真正理解建築師、遊戲設計師或電影導演腦中的“世界”。02. 藏寶圖中缺失的那塊拼圖:空間智能AI缺失的“空間智能”,到底是什麼?李飛飛說,它是我們人類認知的“腳手架”。早在我們學會說話、寫字之前,就已經掌握了這項能力:· 嬰兒會花一到兩年時間,通過抓、扔、咬、看,來理解這個世界。· 你側方停車時,你的大腦在飛速計算保險槓和馬路牙子的距離有多遠。· 朋友把鑰匙扔給你,你不用拿紙筆計算拋物線,憑下意識就能接住。· 你半夜起床倒水,不開燈也能摸到杯子並把水倒進去。李飛飛還舉例說,甚至人類的偉大發現、文明進步都少不了這種能力:· 古希臘的埃拉托斯特尼是通過觀察兩地影子的角度不同,從而計算出的地球周長。· 哈格里夫斯發明出“珍妮紡紗機”,靠的也是對空間的觀察和理解。· 沃森和克里克是通過親手搭建3D分子模型,“拼”出的DNA雙螺旋結構。李飛飛認為,空間智能是人類想像力、創造力以及和世界互動的基礎。遺憾的是,當下的AI基本沒有這個能力。03. AI的下一步:從“語言模型”到“世界模型”那麼,怎麼讓AI“開眼”看世界呢?李飛飛給出了自己的答案:AI的未來,不在於更大的“語言模型”(LLM),而在於全新的“世界模型”(World Models)。她認為,一個真正的“世界模型”,必須是“三位一體”的:· 生成性(Generative):它必須能創造出符合物理、幾何規律的3D世界。比如,它“知道”重力,知道物體會下落,知道水會往低處流。· 多模態(Multimodal):它必須能處理一切輸入。比如不僅能聽懂你說的“話”,還要能看懂圖片、視訊、深度資訊、甚至你的一個“手勢”。· 互動性(Interactive):這是最關鍵的。當你告訴它一個“動作”,它必須能預測出“下一秒會發生什麼”。比如“推一下積木”,它就知道積木會倒。李飛飛坦言,這個挑戰比訓練語言模型要難得多。她解釋道,語言是一維的、序列化的訊號,而世界是四維的(三維空間+時間),受重力、物理定律等無數複雜規則的約束。李飛飛透露,她一年前和他人共同創立了World Labs,以及最近向少數使用者展示的第一個世界模型Marble,都是為了攻克這個難題。04. 這將如何改變我們的生活?一旦AI擁有了空間智能,那才是一場真正的革命。首先,是“超能力”般的創造力。李飛飛團隊World Labs正在研發的Marble模型,能讓電影製作人、遊戲設計師、建築師用“提示詞”快速建立和迭代3D世界。未來,這些人不再需要學習複雜的3D軟體,只需要用語言描述,就能生成一個可以走進、與之互動的3D世界。屆時,人人都能成為“造物主”。其次,是真正的“具身智能”。機器人將不再是“笨手笨腳”的機器臂。在“世界模型”的加持下,它們會在模擬環境中學會成千上萬種實用技能,然後走進我們的家庭、醫院,成為得力的助手和看護。此外,李飛飛特別提到,這樣的AI將成為未來科學與教育的“加速器”。· 醫療:AI可以在多維度上模擬分子間的相互作用,加速藥物的發現處理程序,也或幫助醫生分析影像,為患者和護理人員提供持續支援。· 教育:學生不再只是看書,而是可以“走進”古羅馬的街道,或者親身“探究”細胞內部。教師可以借助互動環境教學,專業人士則可以在高度逼真的模擬環境中練習並掌握複雜技能。· 科研:通過模擬深海、外太空等人類無法親自到達的環境,我們可以擴大科學探索的範圍;通過將多維度模擬與真實世界資料採集相結合,拓展實驗室觀察與理解的邊界。05. 結語:AI的終點,是“為人類賦能”作為幫助開啟了現代AI時代的科學家之一,李飛飛在文章的最後,回歸了她最核心的人文關懷。她強調,AI的終極目標,絕非取代人類,而是“為人類賦能”:“讓AI成為增強人類專長、加速人類發現、放大人類關懷的力量——而不是取代那份屬於人的判斷力、創造力與共情力。”她認為,AI由人開發、由人使用、由人管理,必須始終尊重人的能動性和尊嚴。它的魔力在於擴展我們的能力,讓我們更有創造力、更有效率。“空間智能”代表的正是這樣一個“更深刻、更豐富、更有力量的生活的願景”。它有望“建構出與真實世界高度契合的機器,讓它們成為我們應對重大挑戰的真正夥伴。”也許,機器的真正智能,就將從這篇“啟示錄”開始。【以下是李飛飛長文全文】跨越語言,構築世界:空間智能——AI的下一個前沿(From Words to Worlds: Spatial Intelligence is AI’s Next Frontier)1950年,當計算還不過是自動化算術和簡單邏輯的代名詞時,艾倫·圖靈 (Alan Turing) 提出了一個至今仍迴響不絕的問題:機器能思考嗎?能夠想像他所預見的一切,需要非凡的想像力:有朝一日,智能或許可以被建構,而非與生俱來。這一洞見後來開啟了一場名為“人工智慧” (Artificial Intelligence, AI) 的不懈科學探索。在我自己投身AI領域的二十五年裡,圖靈的願景依舊激勵著我。但我們離它還有多近?答案並非一言兩語能說清。如今,以大語言模型 (Large Language Models, LLMs) 為代表的前沿AI技術已開始改變我們獲取和處理抽象知識的方式。它們都是“能言善辯的書呆子”,滿腹經綸,卻“不親民”。而空間智能 (Spatial Intelligence) 將改變我們創造以及與真實和虛擬世界互動的方式——它將徹底變革故事敘述、創造力、機器人技術、科學發現等諸多領域。這正是AI的下一個前沿。自踏入該領域以來,對視覺和空間智能的追求一直是指引我的“北極星”。正因如此,我花費數年時間建構了ImageNet——首個大規模視覺學習和基準測試資料集,它與神經網路演算法和現代計算裝置如圖形處理器 (Graphics Processing Units, GPUs)一道,成為催生現代AI誕生的三大關鍵要素之一。正因如此,我在史丹佛大學的學術實驗室在過去十年裡一直致力於將電腦視覺與機器人學習相結合。也正因如此,一年多以前,我與聯合創始人賈斯汀·約翰遜 (Justin Johnson)、克里斯托夫·拉斯納 (Christoph Lassner)、本·米爾登霍爾 (Ben Mildenhall) 一道共同創立了World Labs:為了首次將這一可能性全面地變為現實。·在本文中,我將闡釋什麼是空間智能,它為何重要,以及我們正在如何建構將解鎖這一能力的世界模型 (World Models)——其影響將重塑創造力、具身智能 (Embodied Intelligence) 和人類的進步。空間智能:人類認知的腳手架AI從未像現在這樣激動人心。生成式AI模型,如大語言模型,已從研究實驗室走入日常生活,成為數十億人進行創造、提高生產力和溝通的工具。它們展現了曾被認為不可能的能力,能夠輕鬆生成連貫的文字、堆積如山的程式碼、照片般逼真的圖像,甚至短影片片段。AI是否會改變世界,這已不再是個問題。無論以何種合理的定義來看,它都已經做到了。然而,仍有太多事物遙不可及。自主機器人的願景依舊引人入勝,但仍停留在推測階段,遠未成為未來學家們長期承諾的日常生活的一部分。在治癒疾病、新材料發現和粒子物理學等領域實現研究大幅加速的夢想,在很大程度上仍未實現。而讓AI真正理解並賦能人類創造者的承諾——無論是幫助學生學習分子化學中複雜的概念,輔助建築師進行空間可視化,協助電影製作人建構世界,還是為任何尋求完全沉浸式虛擬體驗的人提供支援——也依然遙不可及。要瞭解為何這些能力仍然難以實現,我們需要審視空間智能是如何演化的,以及它如何塑造我們對世界的理解。視覺長期以來都是人類智能的基石,但其力量源於更為根本的東西。遠在動物學會築巢、照顧幼崽、用語言交流或建立文明之前,“感知”這一簡單的行為就已悄然開啟了一段通往智能的進化之旅。這種看似孤立的、從外部世界收集資訊的能力——無論是感知一縷微光還是觸摸一種質地——在感知與生存之間建立了一座橋樑,而這座橋樑隨著世代更迭而愈發堅固和精巧。神經元在這座橋樑上層層生長,形成了能夠解釋世界並協調生物體與其環境互動的神經系統。因此,許多科學家推測,感知和行動成為了驅動智能進化的核心循環,也是大自然創造我們這個物種——感知、學習、思考和行動的終極體現——的基礎。空間智能在定義我們如何與物理世界互動方面扮演著至關重要的角色。每一天,我們都依賴它來完成最普通不過的行為:通過想像保險槓與路緣之間不斷縮小的間隙來停車;接住從房間另一頭扔過來的鑰匙;在擁擠的人行道上穿行而不發生碰撞;你半夜起床倒水,不開燈也能摸到杯子並把水倒進去。。在更極端的情況下,消防員在倒塌的建築中穿越不斷變化的濃煙,對結構的穩定性和生存機會做出瞬間判斷,並通過手勢、肢體語言和一種共同的職業本能進行交流,這種本能是任何語言都無法替代的。而嬰幼兒在學會說話前的數月甚至數年裡,完全通過與環境進行充滿趣味的互動來學習這個世界。所有這一切都發生得直觀而自然——這是機器尚未能達到的流暢程度。空間智能也是我們想像力和創造力的基礎。故事講述者在腦海中創造出異常豐富的世界,並利用從古代洞穴壁畫到現代電影再到沉浸式視訊遊戲等多種形式的視覺媒介,將這些世界呈現給他人。無論是孩子們在沙灘上堆砌沙堡,還是在電腦上玩《我的世界》(Minecraft),基於空間的想像力都構成了在真實或虛擬世界中進行互動體驗的基礎。在許多行業應用中,對物體、場景和動態互動環境的模擬,為從工業設計到數字孿生 (Digital Twins)再到機器人訓練等無數關鍵的商業用例提供了動力。歷史上充滿了由空間智能扮演核心角色的、定義文明處理程序的時刻。在古希臘,埃拉托斯特尼 (Eratosthenes) 將影子轉化為幾何學——在太陽直射賽印 (Syene) 的那一刻,他在亞歷山大港測量出7度的夾角——從而計算出地球的周長。哈格里夫斯 (Hargreaves) 的“珍妮紡紗機” (Spinning Jenny) 通過一個空間上的洞察徹底改變了紡織製造業:將多個紡錘並排排列在一個框架中,讓一名工人可以同時紡多根紗線,生產效率提高了八倍。沃森 (Watson) 和克里克 (Crick) 通過親手搭建三維分子模型發現了DNA的結構,他們不斷擺弄金屬板和金屬絲,最終將鹼基對的空間排列“拼”了出來。在每一個案例中,當科學家和發明家需要操縱物體、將結構可視化並對物理空間進行推理時,空間智能都推動了文明的進步——而這些都無法僅用文字來捕捉。空間智能是我們認知賴以建構的腳手架。無論我們是被動觀察還是主動創造,它都在發揮作用。它驅動著我們的推理和規劃,即便是針對最抽象的話題。它對於我們互動的方式至關重要——無論是口頭還是身體上的,無論是與同伴還是與環境本身。雖然我們大多數人並非每天都能像埃拉托斯特尼那樣揭示新的真理,但我們通常都以同樣的方式思考——通過感官感知來理解一個複雜的世界,然後利用一種直觀的理解,來掌握它在物理和空間層面是如何運作的。不幸的是,今天的AI還不會這樣思考。過去幾年確實取得了巨大進步。多模態大語言模型 (Multimodal LLMs, MLLMs),除了文字資料外,還利用大量的多媒體資料進行訓練,從而引入了一些基本的空間意識,如今的AI可以分析圖片、回答相關問題,並生成超逼真的圖像和短影片。通過感測器和觸覺技術的突破,我們最先進的機器人也開始能在高度受限的環境中操縱物體和工具。然而,坦率的現實是,AI的空間能力仍遠未達到人類水平,其侷限性很快就會暴露出來。在估算距離、方向和尺寸,或通過從新角度重新生成物體來進行“心理旋轉”等任務上,最先進的多模態大語言模型模型的表現很少能超過隨機猜測。它們無法走出迷宮、識別捷徑或預測基本的物理現象。AI生成的視訊——雖然是新生事物,而且確實很酷——往往在幾秒鐘後就會失去連貫性。雖然目前最先進的AI在閱讀、寫作、研究和資料模式識別方面表現出色,但同樣是這些模型,在表徵或與物理世界互動時,卻存在根本性的侷限。我們對世界的看法是整體性的——不僅僅是我們正在看什麼,還包括所有事物在空間上的相互關係、它們的意義以及為何重要。通過想像、推理、創造和互動——而不僅僅是描述——來理解這一切,正是空間智能的力量所在。沒有它,AI就與其試圖理解的物理現實脫節了。它無法有效地駕駛我們的汽車,無法在我們家中和醫院裡引導機器人,無法為學習和娛樂創造全新的沉浸式和互動式體驗,也無法加速材料科學和醫學領域的發現。哲學家維特根斯坦 (Wittgenstein) 曾寫道:“我語言的極限意味著我世界的極限。”我不是哲學家。但我知道,至少對於AI而言,世界遠不止於文字。空間智能代表了超越語言的前沿——這種能力將想像、感知和行動聯絡在一起,並為機器真正提升人類生活開啟了可能性,從醫療保健到創造力,從科學發現到日常輔助。AI的下一個十年:建構真正具備空間智能的機器那麼,我們該如何建構具備空間智能的AI?如何才能打造出能夠像埃拉托斯特尼那樣用視覺進行推理,像工業設計師那樣進行精密工程設計,像故事講述者那樣富有想像力地創造,以及像急救人員那樣流暢地與環境互動的模型?建構具備空間智能的AI需要比大語言模型更宏大的目標:世界模型 (World Models),這是一種新型的生成式模型,其理解、推理、生成以及與語義、物理、幾何和動態上都極為複雜的虛擬或真實世界進行互動的能力,遠超當今大語言模型的範疇。該領域尚處萌芽階段,目前的方法從抽象推理模型到視訊生成系統不一而足。World Labs於2024年初正是基於這一信念而創立:基礎性方法仍在確立之中,這使其成為未來十年的決定性挑戰。在這個新興領域,最重要的是確立指導發展的原則。對於空間智能,我通過三個基本能力來定義世界模型:·生成性:世界模型能夠生成具有感知、幾何和物理一致性的世界。要解鎖空間理解和推理,世界模型也必須能夠生成它們自己的模擬世界。它們必須能夠根據語義或感知指令,生成無窮無盡、多種多樣的模擬世界——同時保持幾何、物理和動態上的一致性——無論這些世界代表的是真實空間還是虛擬空間。研究界正在積極探索這些世界應該以隱式還是顯式的方式來表示其固有的幾何結構。此外,我相信一個通用的世界模型除了需要強大的潛在表徵外,還必須能夠為其輸出生成一種顯式的、可觀察的世界狀態,以適應多種不同的用例。特別是,它對當下的理解必須與它的過去、與導致當前狀態之前的世界狀態,連貫一致。·多模態:世界模型在設計上就是多模態的。正如動物和人類一樣,世界模型應該能夠處理多種形式的輸入——在生成式AI領域中稱為“提示詞” (prompts)。給定部分資訊——無論是圖像、視訊、深度圖、文字指令、手勢還是動作——世界模型都應能預測或生成儘可能完整的世界狀態。這要求它能以真實視覺的保真度處理視覺輸入,同時以同等的流暢度解讀語義指令。這使得智能體和人類都能通過多種輸入與模型就世界進行交流,並反過來接收多種輸出。·互動性:世界模型能根據輸入的動作輸出下一個狀態。最後,如果動作和/或目標是給世界模型的提示詞的一部分,那麼其輸出必須包括世界的下一個狀態,無論是隱式還是顯式表示。當僅給定一個帶或不帶目標狀態的動作作為輸入時,世界模型應產生一個與世界先前狀態、任何預期的目標狀態,以及其語義含義、物理定律和動態行為相一致的輸出。隨著具備空間智能的世界模型在其推理和生成能力上變得越來越強大和穩健,可以想見,在給定一個目標的情況下,世界模型本身將不僅能預測世界的下一個狀態,還能根據新狀態預測下一個動作。這項挑戰的範圍超過了AI以往所面臨的任何挑戰。雖然語言純粹是人類認知的一種生成現象,但世界遵循的規則要複雜得多。例如,在地球上,引力支配著運動,原子結構決定了光如何產生顏色和亮度,無數的物理定律約束著每一次互動。即使是最奇幻、最具創意的世界,也是由遵循定義它們的物理定律和動態行為的空間物體和智能體組成的。要將所有這一切——語義、幾何、動態和物理——協調一致,需要全新的方法。表示一個世界的維度,遠比表示像語言這樣的一維順序訊號要複雜得多。要實現能夠提供我們人類所享有的那種通用能力的世界模型,需要克服幾個艱巨的技術障礙。在World Labs,我們的研究團隊正致力於為實現這一目標取得根本性進展。以下是我們當前研究課題的一些例子:一種新的、通用的訓練任務函數: 定義一個像大語言模型中“預測下一個Token” (nexttoken prediction) 那樣簡潔優雅的通用任務函數,長期以來一直是世界模型研究的核心目標。其輸入和輸出空間的複雜性,使得這樣一個函數在形式化上天生就更加困難。儘管仍有許多尚待探索之處,但這個目標函數及相應的表徵必須反映幾何和物理定律,尊重世界模型作為想像與現實的“親民”表徵這一根本性質。大規模訓練資料: 訓練世界模型需要比文字處理複雜得多的資料。好消息是:海量的資料來源已經存在。網際網路規模的圖像和視訊集代表了豐富、易於獲取的訓練材料——挑戰在於開發能夠從這些二維的、基於圖像或視訊幀的訊號(即RGB)中提取更深層空間資訊的演算法。過去十年的研究已經顯示了在語言模型中,資料量與模型規模之間的縮放定律 (scaling laws) 的力量;世界模型的關鍵突破在於建構能夠以相當規模利用現有視覺資料的架構。此外,我不會低估高品質合成資料以及像深度和觸覺資訊等額外模態的力量。它們在訓練過程的關鍵步驟中補充了網際網路規模的資料。但前進的道路依賴於更好的感測器系統、更穩健的訊號提取演算法以及遠為強大的神經模擬方法。新的模型架構和表徵學習: 世界模型的研究將不可避免地推動模型架構和學習演算法的進步,尤其是在當前的多模態大語言模型和視訊擴散範式之外。這兩種範式通常將資料“Token化”為一維或二維序列,這使得簡單的空間任務變得不必要地困難——比如計算一個短影片中不重複椅子的數量,或者記住一個小時前房間的樣子。替代性架構可能會有所幫助,例如用於“Token化”、上下文和記憶的三維或四維感知方法。例如,在World Labs,我們最近關於一個名為RTFM的即時生成式、基於幀的模型的工作就展示了這種轉變,它使用基於空間的幀作為一種空間記憶形式,以實現高效的即時生成,同時保持所生成世界的一致性。顯然,在我們能通過世界建模完全解鎖空間智能之前,我們仍面臨著艱巨的挑戰。這項研究不僅僅是一次理論演練,它是催生一類新型創造力和生產力工具的核心引擎。而World Labs內部的進展一直令人鼓舞。我們最近與少數使用者分享了Marble的一瞥,這是有史以來第一個可以通過多模態輸入提示,來生成並維持一致的三維環境的世界模型,供使用者和故事講述者在他們的創作工作流中進行探索、互動和進一步建構。我們正在努力使其盡快向公眾開放!Marble只是我們創造一個真正具備空間智能的世界模型的第一步。隨著進展的加速,研究人員、工程師、使用者和商界領袖們都開始認識到其非凡的潛力。下一代世界模型將使機器能夠在全新的層面上實現空間智能——這一成就將解鎖當今AI系統中仍然普遍缺乏的關鍵能力。用世界模型為人們建構一個更美好的世界AI發展的動機至關重要。作為幫助開創現代AI時代的科學家之一,我的動機一直很明確:AI必須增強人類的能力,而不是取而代之。多年來,我一直致力於使AI的開發、部署和治理與人類的需求保持一致。如今,技術烏托邦和末日論的極端敘事比比皆是,但我繼續持有一種更為務實的觀點:AI由人開發,由人使用,並由人治理。它必須始終尊重人的能動性和尊嚴。它的魔力在於擴展我們的能力;讓我們更具創造力、更緊密相連、更富生產力、更感充實。空間智能正代表了這一願景——AI賦能人類的創造者、照護者、科學家和夢想家,去實現曾經不可能的事情。正是這一信念,驅動著我致力於將空間智能作為AI下一個偉大的前沿。空間智能的應用橫跨不同的時間線。創造性工具正在湧現——World Labs的Marble已經將這些能力交到了創造者和故事講述者的手中。隨著我們不斷完善感知與行動之間的循環,機器人技術代表了一個雄心勃勃的中期目標。最具變革性的科學應用將需要更長的時間,但有望對人類的繁榮產生深遠影響。在所有這些時間線中,有幾個領域因其重塑人類能力的潛力而脫穎而出。這需要巨大的集體努力,遠非一個團隊或一家公司所能實現。它需要整個AI生態系統的參與——研究人員、創新者、企業家、公司,甚至政策制定者——共同為一個共同的願景而努力。但這個願景值得追求。以下便是那個未來所蘊含的可能:創造力:為故事敘述和沉浸式體驗注入超能力“創造力是智慧在尋開心。”這是我個人英雄阿爾伯特·愛因斯坦 (Albert Einstein) 的一句名言,也是我最喜歡的一句。遠在書面語言出現之前,人類就在講述故事——將它們畫在洞穴牆壁上,代代相傳,在共同的敘事之上建立起整個文化。故事是我們理解世界、跨越時空建立聯絡、探索人性意義,以及最重要地,在我們內心找到生命意義和愛的方式。今天,空間智能有潛力改變我們創造和體驗敘事的方式,這種方式既尊重其根本重要性,又將其影響從娛樂擴展到教育,從設計擴展到建築。World Labs的Marble平台將把前所未有的空間能力和編輯可控性交到電影製作人、遊戲設計師、建築師和各類故事講述者的手中,讓他們能夠快速創造和迭代完全可探索的三維世界,而無需傳統三維設計軟體的繁重開銷。創造性行為本身依然如故,充滿活力且富於人性;AI工具只是放大和加速了創造者所能達成的成就。這包括:·新維度的敘事體驗: 電影製作人和遊戲設計師正在使用Marble來創造出不受預算或地理限制的完整世界,探索在傳統製作流程中難以駕馭的各種場景和視角。隨著不同形式的媒體和娛樂之間的界限日益模糊,我們正接近一種全新的互動體驗,它融合了藝術、模擬和遊戲——個性化的世界,其中任何人,而不僅僅是工作室,都可以創造並沉浸在自己的故事中。隨著將概念和故事板提升為完整體驗的更新、更快捷方式的興起,敘事將不再受限於單一媒介,創作者可以自由地在無數的介面和平台上建構具有共同主線貫穿的世界。·通過設計實現空間敘事: 基本上,每一個製造出來的物體或建造出來的空間,在其實體創造之前,都必須在虛擬三維空間中進行設計。這個過程迭代性強,且在時間和金錢上都成本高昂。有了具備空間智能的模型,建築師可以快速將結構可視化,而無需投入數月時間進行設計,他們可以在尚未存在的空間中漫步——這本質上是在講述我們未來可能如何生活、工作和聚集的故事。工業和時尚設計師可以即時將想像轉化為形式,探索物體如何與人體和空間互動。·全新的沉浸式和互動式體驗: 體驗本身是我們這個物種創造意義最深刻的方式之一。在整個人類歷史中,只有一個單一的三維世界:我們共同分享的物理世界。僅僅在近幾十年來,通過遊戲和早期的虛擬現實 (virtual reality, VR),我們才開始瞥見分享我們自己創造的另類世界意味著什麼。現在,空間智能與新的產品形態,如VR和擴展現實 (Extended Reality, XR) 頭戴裝置以及沉浸式顯示器相結合,以前所未有的方式提升了這些體驗。我們正邁向一個未來,在那裡,步入完全實現的多維世界將變得像打開一本書一樣自然。空間智能使得世界建構不再僅僅是擁有專業製作團隊的工作室的專利,而是向個人創作者、教育工作者以及任何有願景分享的人開放。機器人技術:具身智能的實踐從昆蟲到人類,動物都依賴空間智能來理解、導航和與它們的世界互動。機器人也不例外。具備空間感知能力的機器自該領域誕生之日起就是人們的夢想,這也包括我自己與我的學生和合作者在史丹佛研究實驗室的工作。這也是為什麼我對利用World Labs正在建構的這類模型來實現這一可能性如此興奮。·通過世界模型擴展機器人學習: 機器人學習的進展取決於一個可擴展的、可行的訓練資料解決方案。考慮到機器人需要學習理解、推理、規劃和互動的可能性狀態空間極其巨大,許多人推測,需要結合網際網路資料、合成模擬和真實世界的人類演示捕捉,才能真正創造出具有泛化能力的機器人。但與語言模型不同,當今機器人研究的訓練資料十分稀缺。世界模型將在此扮演決定性角色。隨著它們感知保真度和計算效率的提高,世界模型的輸出可以迅速彌合模擬與現實之間的差距。這反過來將有助於在無數狀態、互動和環境的模擬中訓練機器人。·伴侶與合作者: 機器人作為人類的合作者,無論是輔助實驗室裡的科學家,還是協助獨居老人,都可以在急需更多勞動力和生產力的領域擴展部分勞動力。但這需要具備感知、推理、規劃和行動的空間智能,同時——這是最重要的——與人類的目標和行為保持共情的一致。例如,一個實驗室機器人可以處理儀器,讓科學家專注於需要靈巧或推理的任務,而一個家庭助手可以幫助老年人做飯,而不會削弱他們的樂趣或自主性。能夠預測下一個狀態,甚至可能預測與此期望一致的行動的、真正具備空間智能的世界模型,對於實現這一目標至關重要。·擴展具身形式: 人形機器人在我們為自己建構的世界中扮演著一個角色。但創新的全部益處將來自更多樣化的設計:輸送藥物的奈米機器人,穿梭於狹小空間的軟體機器人,以及為深海或外太空建造的機器。無論其形態如何,未來的空間智能模型都必須整合這些機器人所棲息的環境以及它們自身的具身感知和運動。但開發這些機器人的一個關鍵挑戰在於,缺乏這些多種多樣的具身形態的訓練資料。世界模型將在模擬資料、訓練環境和基準測試任務等方面為這些努力發揮關鍵作用。更長遠的視野:科學、醫療保健和教育除了創意和機器人應用,空間智能的深遠影響還將擴展到那些AI能以拯救生命和加速發現的方式增強人類能力的領域。我下面重點介紹三個具有深度變革潛力的應用領域,但毋庸置疑,空間智能的用例在更多行業中都具有廣闊的前景。·在科學研究中,具備空間智能的系統可以模擬實驗,平行測試假設,並探索人類無法進入的環境——從深海到遙遠的行星。這項技術可以改變氣候科學和材料研究等領域的計算建模。通過將多維模擬與真實世界資料收集相結合,這些工具可以降低計算門檻,並擴展每個實驗室所能觀察和理解的範圍。·在醫療保健領域,空間智能將重塑從實驗室到病床的一切。在史丹佛,我的學生和合作者多年來一直與醫院、養老院和居家患者合作。這段經歷讓我確信了空間智能在此處的變革潛力。AI可以通過多維模擬分子相互作用來加速藥物發現,通過幫助放射科醫生在醫學影像中發現模式來增強診斷,並實現環境監測系統,在不取代康復所需的人際聯絡的情況下支援患者和護理人員,更不用說機器人在許多不同場景下幫助我們的醫護人員和患者的潛力了。·在教育領域,空間智能可以實現沉浸式學習,使抽象或複雜的概念變得具體可感,並創造出對我們大腦和身體學習方式至關重要的迭代體驗。在AI時代,更快、更有效的學習和技能再培訓的需求,對學齡兒童和成年人而言都尤為重要。學生可以在多維空間中探索細胞機器或漫步於歷史事件。教師可以通過互動環境獲得個性化教學的工具。從外科醫生到工程師的專業人士,都可以在逼真的模擬中安全地練習複雜技能。在所有這些領域,可能性是無限的,但目標始終如一:讓AI成為增強人類專長、加速人類發現、放大人類關懷的力量——而不是取代那份屬於人的判斷力、創造力與共情力。結論過去十年見證了AI成為一個全球現象,以及技術、經濟乃至地緣政治的一個拐點。但作為一名研究者、教育者,以及現在的企業家,最能激勵我的,仍然是圖靈75年前那個問題背後的精神。我仍然分享著他的那份好奇心。正是這份好奇心,讓我每天都為空間智能這一挑戰而充滿活力。歷史上第一次,我們有望建構出與物理世界如此協調的機器,以至於我們可以在面對最嚴峻的挑戰時,將它們視為真正的夥伴。無論是加速我們在實驗室中理解疾病的方式,徹底改變我們講述故事的方式,還是在我們因疾病、受傷或年老而最脆弱的時刻支援我們,我們都正處在一項技術的前沿,它將提升我們最關心的生活方面。這是一個更深刻、更豐富、更有力量的生活願景。在大自然於遠古動物身上釋放出空間智能的第一縷微光近五億年後,我們有幸成為能夠很快賦予機器同樣能力的這一代技術人員——並有幸利用這些能力為世界各地的人們造福。我們對真正智慧型手機器的夢想,沒有空間智能是無法完整的。 (網易科技)
OpenAI:人類只剩最後5年
剛剛拿下阿克塞爾·斯普林格獎,山姆奧特曼又語不驚人死不休:五年後AI將全面超越人類,人類智力的霸權時代,已進入倒計時。2030年,GPT-8不僅能給出終極難題量子引力答案,能向你娓娓道來其思考過程、靈感來源,以及它為何決定研究這個課題。它,有資格成為真正的AGI。屆時,“當今經濟活動中30%到40%的任務都將由AI執行。”……如果是在兩年前,我們或許還會感到激動、為自己的飯碗而焦慮。但此時此刻,雖然類似的感覺還有,但相信絕大多數人都淡了許多。牛逼聽太多,實在是麻木了。看著現在正與你對話的傻瓜式AI大模型,雖然有點用,但有被吹的那麼厲害嗎?就這麼個玩意,你很難想像它能在5年內,就成為超越一切的存在。01 現實很骨感美國智庫METR曾於7月初發佈報告,稱大語言模型每7個月能力翻倍,遠超摩爾定律。預計到2030年,AI足以在數小時內完成人類一個月的工作量。這與奧特曼所預測的時間點,比較接近,未來似乎很美好。但回到現在,同樣是智庫METR做了一項試驗:將一批經驗豐富的軟體工程師分成兩組,一組純人工,另一組使用AI工具程式設計。結果卻出乎很多人意料。相比於純人工,借助AI工具預測快40%,實際上卻慢了19%。也就是說,AI不僅沒有使得效率提升,反而降低了效率。無論是採用不同的結果指標、估計方法,還是對資料進行各種子集/子分析,開發速度的放緩現象依然存在。使用了更先進的工具,效率怎麼可能下降呢?包括參與實驗的程式設計師,也認為AI工具幫助自己提升了約20%的效率。這完全不符合邏輯,但資料不會說謊。為瞭解釋這種現象,實驗方將之歸為“能力-可靠性缺口”概念。簡單來說,就是現在的大語言模型,雖然能完成大量複雜的任務。但它們給出的成果,無法達到真實企業需要的業務水平。比如在執行程式設計任務中,程式設計師確實在尋找資訊和主動編碼上花費的時間更少了,但撰寫提示詞同樣需要時間。同時,AI固然能快速生成大量程式碼,但其中充滿小錯誤,導致人類程式設計師不得不花費大量時間去檢查、更正AI輸出,甚至重寫。大部分情況下,人類反而成了AI的保姆。更關鍵的是,程式設計已經是AI表現最好的領域。在這個領域都無法帶來效率提升(在目前的水平下),甚至起到反效果,其他行業可想而知。都說站在風口上、豬都能飛起來,人人都想當那隻豬。根據天眼查專業版資料,截至2025年4月,全國現存在業、存續狀態的人工智慧相關企業超過424.3萬家。其中,2025年新增註冊相關企業約28.6萬家。這個領域,是如此繁榮、參與者是如此之多,所有人都在說AI是未來最大的財富增量。但實際的情況是,除了提供算力的輝達,和成千上萬利用資訊差賺流量的博主……目前幾乎還沒有那一家AI企業真正賺到錢。至少在現階段,它仍然是典型的:高投入,低回報。據摩根士丹利估算,僅微軟、Meta、Google、亞馬遜四家巨頭,2024年的資本投入就高達3000億美元,其中大部分流入AI項目。總體來看,2024年全世界生成式AI投資額較2023年增長超過70%,預計2025年的的總支出更是將達到2024年的3倍。這種背景下,科技巨頭還能扛得住,或許能支援到AI應用真正百花齊放的那一天。而大量中小競爭者,即便前期拿到投資,也根本撐不下去。比如開發出AI回話模型的SD,至今仍背著1億美元債務;Stability AI,核心研究團隊集體辭職;Character AI不得不賣身Google……國內的圈子,大同小異。波形智能,曾拿到千萬融資,突然就解散了,包括CEO、CTO等核心成員集體跳槽OPPO。竹間智能,創始人簡仁賢曾擔任微軟工程院副院長,因現金流吃緊,部分部門不得不停工,基本上停擺了。華夏芯,資金鏈斷裂、申請破產,14項專利、15項軟體著作權被掛到京東拍賣……2022年11月至2024年7月,全國共有78612家新註冊AI企業處於註銷、吊銷或停業異常狀態,佔同期新註冊企業總量的8.9%;全國AI領域註銷、吊銷的企業總數,更是超過20萬家。雖然沒有最新的資料,但按照這個比例估算,目前倒閉的新註冊AI相關企業,100%已經超過10萬家。正如AI工具的實際作用,目前遠遠沒有人們想像中那麼強。不要只看到頂尖巨頭在台前的光鮮,這才是AI浪潮的真正底色。九成的參與者,都將、或已經倒在黎明前,其中不乏真正純粹的技術團隊。在AI技術出現真正意義上的突破之前,這種情況不會改變。02 未來確實不遠如果說,古人的生產力是天平,付出多少力氣就收穫多少糧食。那麼,現代人的生產力就是一根槓桿,只用坐在機器前敲敲打打,就能驅動萬噸的巨輪。在我們的想像中,生成式AI的變革性之處在於,打破了“成本、質量、速度只能選其二”的三角模型。不過目前來看,無論是成本、質量還是速度,AI工具似乎都與我們預想的還差很遠。因為現階段的AI只會標準化的創作,這會導致兩個問題。其一,同質化;其二,細節缺失。以AI繪圖為例,生成式AI是通過整合大量資源,來獲得繪畫能力。一旦源頭出現交叉重複,必然導致AI作畫出現不可避免的同質化。這一點我們平常使用AI工具時都能感受到,你如果不輸入大量特定的提示詞,它給出的圖片風格其實都非常類似。更關鍵的是,它只是把資料具象化為圖片,這就不可避免出現大量低級錯誤。比如,人物裝飾不完整,某些器官比例失真,手指多一根等等。這在上文提到的程式設計工作中,同樣有出現。由於這兩個問題的存在,生成式AI目前只能勝任比如稽核、閱片之類的少部分重複性非常高的工作。對大部分人而言,它根本無法作為一個合格的工具,更深層次的細節把控,必須由人來把控。最終導致,使用工具後的效率,反而不如原來高。當然,未來雖然還未來,但它終究會到來。今時今日的種種,我們可以歸咎為企業家的過度宣傳,但更本質的原因只有一個:如今的AI不夠強。應該強到什麼程度,它才能真正作為一個合格的工具,給企業“降本增效”呢?其實應該有一個標準:達到人類從業者的平均水平、乃至最低水平。它不需要非常強,只需要達到最普通的水準,就將徹底改變今時今日的市場生態。因為在任何行業,佔絕大多數的普通人如果被淘汰,人工成本自然就降下來了,效率也得到了提升。比如目前AI應用最廣泛的遊戲行業。只要定義好規則,關卡策劃、系統、數值等基礎、重複性的設計內容,後續的工作本來就是套範本直接協作。基本上,初級策劃所有能幹的工作,基本上都即將被替代。甚至,只需保留少數創造力最強的人,這樣做不僅能降本增效,遊戲本身的質量也會得到提升。比如,每個NPC都有一個完整而具體的故事,且能與玩家進行更詳細而真實的對話——實現性格千人千面。玩家體驗毫無疑問會得到提升。而在單純靠人力堆的時代,這是不可能實現的。對大廠而言,AI能幫助自己降本增效,以後大型遊戲的研發成本更低、周期更短,從而帶動整個市場更加活躍。對小廠而言,本來主攻的就是頁游、小程序遊戲,基本就是賺一波就跑。對他們而言,以後的成本基本只剩下推廣,研發全交給AI就可以了,無限薅羊毛。唯一受傷的,只有大部分不夠“優秀”的從業者。這種事情,如今已經在遊戲行業發生,而且這兩年隨著顯示卡升級大爆發,行業會變得越來越卷,50%的人可能面臨轉行。其他行業,都在瑟瑟發抖。那一刻的到來,不需要AGI,只需要等到工具能完成最簡單的工作。但絕對不應該是現在。03 尾聲至少此時此刻,對大部分行業而言,AI是根本無法取代人的,甚至作為工具都不太合格。但最近兩年,很多中小企業的管理層們,不論懂或不懂,大多都跟著輿論走、給員工強調降本增效的概念,普遍裁員。留下的員工熟悉AI工具,尤其是免費的那種,提高自己的工作效率。這算是比較low的做法,也是最普遍的。但最終,絕大多數隻是降了本,根本沒有增效。即便真的增了效,絕大多數的情況也不是因為AI,而是裁員導致人心惶惶、大家越來越卷而已。更諷刺的是,現在都2025年了,AI應用市場規模即將突破5000億元。卻依然有相當一部分企業,就像坐井觀天的土財主一般,覺得買幾台高配電腦就是數位化轉型,生成幾個數字人主播就是在做AI。這並非誇張,稍微去瞭解一下就知道,抱有這種想法的企業、甚至投資者都相當之多。或者說,這大概才是目前市場熱炒AI的真實底色。 (格隆)
對話萬維鋼:AI 的19個關鍵問題
我將向萬維鋼請教如下 19個關於 AI 的關鍵問題,請點選上方“預約”。模組一探尋本質——智能的終局與路徑1、(路線之問)萬老師您判斷,現在以Transformer 為基礎的大語言模型路線,究竟是通往通用人工智慧(AGI)的康莊大道,還是一條會很快遇到天花板的岔路?如果說此路能通,我們距離終點還缺失了那些關鍵的“拼圖”?有確定的時間表嗎?2、(定義之問)最近DeepMind 的哈薩比斯說,如今的LLM 遠非“博士級智能”,因為它們缺乏持續推理和自主學習能力,甚至會犯低級錯誤。這是否精準地描述了當前AI“能力天花板很高,但能力地板很低”的現狀?我們應該如何定義和評測一個AI是否達到了真正的“通用智能”?3、(破局之問)針對AI“能力地板低”和“常犯低級錯誤”的問題,目前的技術路徑(比如繼續擴大模型規模、最佳化資料質量)能從根本上解決嗎?還是說,我們需要等待像哈薩比斯所說的“一到兩個關鍵突破”?這個突破最可能發生在什麼領域?4、(世界模型之辯)Yann LeCun 旗幟鮮明地反對“自回歸模型能實現AGI”的觀點,大力鼓吹“世界模型”(World Model),認為讓AI 理解世界因果關係才是正道。這是否是哈薩比斯所說的“缺失的關鍵突破”之一?“大力出奇蹟”的Scaling Law 是否真的已經走到了盡頭?模組二商業戰爭——格局與壟斷5、(市場格局)當前全球大模型“百家爭鳴”,但回顧網際網路歷史,無論是搜尋(Google)還是社交(Meta),最終都走向了寡頭壟斷。您認為AI 基礎大模型的終局會是幾家獨大,還是會呈現一個更多元化的生態?6、(具身智能)將目光從軟體轉向硬體,在機器人這個賽道,特斯拉的“第一性原理”和資料飛輪能否幫它建立像電動車領域那樣的壟斷優勢?或者,中國企業是否會憑藉強大的製造業和成本控制能力,再次上演“反超”的戲碼?7、(商業模式)既然AI 目前還無法完全避免“低級錯誤”,那麼在當下,AI 最可靠、最有價值的商業應用場景是什麼?是作為“副駕駛”(Copilot)增強人類能力,還是在某些容錯率高的領域徹底取代人力?模組三文明基石——能源、經濟與創新8、(能源之問)AI、電動車、機器人都是能源消耗大戶。這種由“計算”和“物理智能”驅動的能源需求,會如何重塑全球的能源結構?這對於被寄予厚望的太陽能和爭議中的核能,分別意味著怎樣的機遇和挑戰?9、(經濟引擎)彼得·蒂爾等樂觀派認為,AI 帶來的生產力爆發,足以解決當前美國乃至全球面臨的諸多經濟困境。您是否認同這種“AI 救世論”?AI 的指數級增長,在多大程度上能真正轉化為宏觀經濟的健康增長?10、(創業生態)Wintel 和移動網際網路時代,誕生了大量依附於核心平台的生態企業。但AI 似乎正在“消滅中間商”,許多過去需要中小企業完成的工作,現在可以由一個強大的AI 直接完成。這對於未來的小企業和創業者,是機遇還是災難?模組四人類未來——就業與教育11、(個體應對)AI 對知識工作者的衝擊已經開始顯現。對於我們普通“打工人”而言,未來幾年最重要的“元能力”是什麼?是學會如何與AI 高效協作,還是專注於那些AI 短期內無法取代的創造性或情感性工作?12、(教育變革)教育被認為是最能從AI 中受益的領域,但全球教育體系依然在巨大的慣性中運行。對於有遠見的父母和學生來說,我們現在應該主動做些什麼,來為10年後的世界儲備真正的競爭力?模組六智能邊界——自主體、資料與意識13、(資料“投喂”困境)高品質的人類資料即將耗盡,未來我們可能不得不讓AI “吃”自己生成的合成資料。這會導致一個“數字近親繁殖”的、創造力枯竭的未來,還是會催生出我們無法理解的、全新的智能形式?14、(意識與“靈魂”)這是一個略帶哲學性的問題。隨著AI 在對話中展現出越來越強的“共情”和“自我意識”的表象,我們是否需要重新思考“意識”的定義?或者說,我們是否會進入一個“真假難辨”的時代,即便AI 沒有真正的意識,人類也會因為情感依賴而賦予其“靈魂”?模組七文明尺度——風險、治理與終極探問15、(加速vs 安全)矽谷現在分裂為兩大陣營:一方是以a16z 為代表的“有效加速主義”(e/acc),認為應不惜一切代價推動AI 發展;另一方則是“AI 安全派”,呼籲謹慎慢行,警惕失控風險。這場關乎人類命運的豪賭,您認為我們應該踩下油門還是剎車?16、(全球治理難題)AI 的發展速度已經遠遠超過了任何一個國家或國際組織的立法速度。面對這項“超越國界”的技術,我們有可能建立一個有效的全球性監管框架嗎?還是說世界最終會分裂成幾個獨立的、互不相容的“AI 治理區”?17、(科學的終結?)AlphaFold 已經顛覆了生物學。您認為,AI 是否會成為一種“萬能科學工具”,在未來幾十年內解決物理學、數學等領域最根本的難題?如果科學發現的過程本身被AI 自動化,人類科學家的角色和使命將是什麼?18、(終極價值之問)如果有一天,AI 在幾乎所有智力勞動上都超越了人類,人類存在的獨特價值是什麼?當“工作”不再是生活的中心,我們的社會結構、價值體系和個人對意義的追求,將發生怎樣天翻地覆的變化?模組八地緣博弈19、(地緣政治之問)中美AI 競爭被視為本世紀最重要的大國博弈。目前看,美國在頂尖人才、高端算力(晶片)和基礎大模型的原始創新上仍具優勢,但其內部也存在“安全vs 加速”的路線搖擺;而中國則擁有海量資料、強大的國家意志和無與倫比的產業應用和快速迭代能力。二者之間的競爭會呈現出怎樣的軌跡? (孤獨大腦)
OpenAI董事長:太多AI應用是在表演!AI泡沫遠比想像更嚴重,會有人賠大本;應用不應追求AGI;微調或不再重要;支援抽成模式
“應用型 AI 公司不應該追求 AGI。”“我們確實也處在一個泡沫期,會有人賠掉大量資金。”“我們平台上的某個 agent,每生成一條回覆,背後可能會觸發 20 多次推理呼叫。”上周,OpenAI 現任董事長、Sierra CEO  Bret Taylor 做客一檔播客欄目,期間的談活內容引起了業內的關注。Bret 的經歷透露著一種技術人獨有的傳奇色彩,可以說是少數完整見證科技行業發展的資深人物之一。他早年是 Google 的工程師,之後創辦了社交網路 FriendFeed,並在 2009 年將其賣給 Facebook,隨後擔任 Facebook CTO。後來他創立了協作工具 Quip,並將其賣給 Salesforce,並一度做到了 Salesforce 聯席 CEO。但現在,Bret 離職創辦了 Sierra(提供企業級對話式 AI Agent 平台)。這家公司在做這樣一件事情:重新定義企業如何利用 AI 提升客戶服務體驗。在此期間,他還曾擔任 Twitter 董事會主席,見證了馬斯克收購事件;在 OpenAI 經歷 CEO Sam Altman 被解僱又復職的風波後,他成為董事長。這樣的的經歷,堪稱一種行業“沉浸式”觀察的第一人稱視角。這次對話的背景是,Bret 的 Sierra 剛剛完成了新一輪融資,市值來到了 100 億美元。當然,還有一個故事背景:就是 GPT-5 的發佈近一個月,使用者的反饋從差評慢慢趨向於好轉。所以,主持人 Alex Heath,重點問了 AI 應用和大模型這兩件事。在AI應用方面,站在 AI 圈的核心,Bret 的視角反而沒有偏袒 AI 的炒作,對話中他在理性地思考AI產品即將帶來的二階、三階的影響和變化,並坦承現在市面上的 AI 產品更多是表演性項目。“要麼等,要麼自己做!”我們現在可能還在馬斯洛需求層次的底層,很難想像到達“自我實現”的頂端是什麼樣子。而對於模型技術方面,Bret 認為,Agent的技術秘方不在於自己預訓練一個模型,他們會微調多個模型。系統裡有很多不同的模型,不是單一的供應商,也不是固定的參數規模,參數量只是衡量模型複雜度的指標之一。此外,這次談話當然也繞不開聊到 OpenAI 以及整個 AI 行業的走向。他舉了幾個非常令人興奮的例子。其中,他特別提到了 WhatsApp 上的業務 Agent,以及駕駛途中的辦公 Agent.比如在巴西,有人直接在 WhatsApp 上辦理抵押貸款。我問他在幹嘛,他就直接上傳 PDF 檔案。突然間,你會發現,如果未來每家公司都用會話式 agent 來做客戶服務。那可能每家公司都會在 WhatsApp 上有一個業務入口,或者智能音箱可能會捲土重來。想像一下,你在通勤途中,一邊駕駛,一邊通過個人 agent 整理郵件、對話交流,你的通勤時間一下子就變得超級高效。“三年前,我心目中的 AGI 已經實現”,但是AI的泡沫要比麻省理工的那份研究報告實際上更嚴重些。OpenAI的走向會通往那裡,是為AGI時代提供基礎設施,還是把大模型商業化?Bret 給出了堅定的答案:前者。對於近日 GPT-5 發佈的爭議,他回應:絕對是質的飛躍。並表示,以後人們對“模型到底提升了多少”的感知,會越來越取決於他們要解決的問題的複雜度。提及大火的程式碼 Agent,Bret 指出,客戶其實真正需要的不是讓 Agent 幫我寫程式碼,而是解決方案。……總之還有很多料,之類不再逐一展開了。以下是 Alex Heath 和 Bret Taylor 的完整對話,enjoy:01、OpenAI董事長下場做Agent前做什麼?Alex Heath:我想從 2023 年初說起。當時你剛離開 Salesforce,還是聯席 CEO。能聊聊當時決定創業的過程嗎?你是如何最終確定做 Sierra 的?Bret Taylor:我宣佈離開 Salesforce 的時間,正好和 ChatGPT 發佈幾乎是同一周。我不知道你相不相信“宇宙暗示”這種東西,但對我這種極客來說,用到這種產品的那一刻,我滿腦子都在想它。說實話,我當時並不百分之百確定離開 Salesforce 後要做什麼。我只是想先離開,再慢慢思考人生方向。結果我立刻就沉迷進了這項技術。我自己在用它,[LinkedIn 聯合創始人] Reid Hoffman 也是我的朋友,他當時給我演示了 GPT-4 的早期版本。我完全被它展現出來的同理心和自然的人類表達震撼了。我之前一直在關注 AI,但老實說,如果你在 2023 年 10 月讓我解釋“大語言模型”是什麼,我可能會一臉茫然。後來我意識到,這項我其實沒跟得那麼緊的技術,真的要改變世界。我知道我必須在這個領域做點事情。雖然還不知道具體做什麼,但沒關係。這讓我想起當年第一次接觸網際網路的時候,直覺就是:它會改變一切。我想要在那個浪潮裡工作。然後我和 Clay Bavor(我認識 20 年的老朋友)一起吃飯,本來沒打算和他一起創業,但在飯桌上我發現他也同樣痴迷。他當時還在 Google 給 Sundar Pichai 工作,結果一頓飯下來,多點了幾道菜,最後我們決定一起開公司。雖然完全不知道要做什麼,但基於一個前提:當科技發生地震式的變革時,商業機會會大量湧現,使用者需求、企業需求和軟體商的能力都會被重新洗牌。就像網際網路出現後,造就了今天股市上最大的幾家公司,比如 Amazon 和 Google,同時也衝擊了微軟(不過微軟最終挺了過來)和 Siebel Systems(就沒那麼幸運)。這種“新貴 vs. 舊王者”的格局大洗牌,會打開巨大的市場。網際網路的典型市場是搜尋和電商,而大語言模型也會重塑無數市場,從軟體開發到客戶服務。所以我們決定先休整幾個月,然後和大量潛在客戶聊,最終創辦了 Sierra。我們要做的是客戶體驗的 AI Agent。現在包括 ADT 家庭安防、紐約的 Ramp、SiriusXM 等公司都在用 Sierra 的 Agent 來接電話、處理線上對話,甚至幫使用者升級套餐或在警報響起時主動打電話通知你。這真的很令人興奮。02、Agent的商業模式:按結果付費,佣金分成Alex Heath:跟我聊聊Sierra,以及你們是如何與新客戶進行實際合作的。請跟我講一下整個流程,因為這是一個非常新的領域。我的意思是,客戶支援本身並不新鮮,但你們的工作方式是全新的。那麼,與之前在其他公司的工作方式相比,你們與客戶合作的方式有什麼獨特之處呢?我先從我們的商業模式開始,因為我認為這有助於回答你的問題。Sierra 與傳統軟體公司不同的一點是,我們只按結果收費。所以對於我們的大多數客戶來說,這意味著當 AI 代理自主解決客戶致電或聊天時提到的問題時,需要支付一定的費用。如果 AI 代理需要轉接給真人,則免費。Bret Taylor:我們非常喜歡這種商業模式,而且我認為它將成為代理商的標準商業模式,因為“agent”(代理)一詞源於“agency”(代理機構),其原則本身就意味著一定程度的自主權。我認為大多數經驗豐富的代理商都會主動開始並完成一項任務,無論是為銷售團隊開發新的銷售線索,還是解決客戶服務諮詢,或是為反壟斷審查進行法律分析,無論它是什麼。如果人工智慧代理不僅能幫助人們提高工作效率,還能真正完成任務,為什麼不直接為出色的工作付費呢?看看大多數公司,如果工作成果可衡量,比如銷售,你往往會支付佣金,對吧?這不僅僅是工資。所以我認為,讓代理按佣金獲得報酬,這不僅是供應商、合作夥伴和公司之間良好的激勵機制,而且從根本上來說也感覺很合理。這就是為什麼我認為它會像雲端軟體的出現一樣。當馬克·貝尼奧夫和帕克·哈里斯創立 Salesforce 時,它提供的是訂閱式服務,而不是永久授權,這改變了軟體的格局;同樣的道理也將發生在代理身上。現在回到我們如何與客戶合作的問題,這引出了一個問題:如果只有當軟體運行良好時才能獲得報酬,那麼軟體供應商與公司之間的關係究竟是什麼?大多數軟體供應商與客戶之間都保持著一定程度的“保持距離”關係。如果你見過有人做過大型ERP實施,我對ERP系統瞭解不多,但顯然,它們很難執行,因為我遇到的每一個做過ERP實施的人,都比預期多花了兩年時間,花費也比預期多得多。如果你去和參與某個項目的10000人交談,系統整合商會把矛頭指向軟體供應商,軟體供應商又會把矛頭指向系統整合商。沒有人真正指責公司,因為公司才是付帳的人。所以每個人都會說:“哦,你真棒。不,我肯定一切都好。” 這就好比成功有一千個父親,而失敗卻只有一個孩子。問題的一部分在於,在這種關係中,唯一關心結果的一方是公司。所以每個人都在互相指責,這需要一位優秀的CIO或CTO來應對,但你可以看到其中存在著各種不正當的動機。也許合作夥伴是按小時收費的;這可不是什麼好的激勵機制。軟體供應商已經完成了銷售,所以祝你好運,希望你能夠成功部署。我認為,走向基於結果的定價模式需要軟體公司與其合作公司之間的關係發生改變。我認為目前在人工智慧領域,這種模式很流行,部分原因就在於此。沒有那家軟體公司想成為一家專業服務公司。所以,你不可能把定價機制調到最高,然後就打造出一家我認為你想打造的公司。但這需要承擔不同程度的責任。因此,在與客戶的關係中,我們真正關注的是幾個不同方面。一是產品的易用性。我認為,要實現目標,就需要讓實現目標的過程儘可能簡單。我們在市場上獨樹一幟,既有面向技術團隊的產品,也有面向營運團隊的產品。你無需任何技術知識即可組建代理團隊。同樣,我們正在努力賦能儘可能多的客戶體驗專業人士。在合作方面,我們在所謂的代理開發方面提供大量支援。如果你需要幫助來拓展代理團隊,我們會安排專車前往。這很獨特。我不確定一切最終會如何發展,但我非常認同這個願景。當我與客戶交談時,我很高興他們能夠清楚地瞭解我們為他們提供的價值,因為他們只有在客服人員工作時才需要付費。我非常喜歡這種簡單的關係,並且非常認同。03、為什麼專注於大客戶?Alex Heath:這麼說,你們有數百個客戶,其中50%的客戶年收入超過10億美元,20%的客戶年收入超過100億美元。對嗎?Bret Taylor:是的。Alex Heath:為什麼要專注於這樣的客戶,而不是像 Shopify 那樣採取大規模的策略?你們為什麼要向大公司靠攏?Bret Taylor:大公司有大問題。我喜歡第一性原理思維,如果你是一個大型消費品牌,在全球擁有1億消費者,那麼在大型語言模型出現之前,你不可能與所有消費者進行對話。如果你算一下,呼叫中心有個術語叫“每次聯絡成本”,它本質上衡量的是接聽電話或回覆聊天所需的全部人力和技術成本。這實際上取決於對話的複雜程度以及接聽電話人員的資質。也取決於是在岸還是離岸。但假設接電話的費用在10到20美元之間。對於大多數消費品牌來說,他們每使用者的平均收入甚至低於這通電話的費用。所以你根本負擔不起通話費用。這就是為什麼如果你曾經嘗試給任何消費品牌打電話,你都會發現你根本打不通。很多網站都專門用來尋找許多消費品牌的電話號碼。這並不是因為他們不在乎你,只是不經濟。如果每個想給他們打電話的人都打給他們,他們就會倒閉,這對你來說可能也不好。現在有了大型語言模型,情況就完全不同了。你把電話成本降低了兩個數量級,而不是一個數量級,突然之間,通話的經濟效益就發生了巨大的變化。因此,我們之所以追求更大的企業品牌,是因為客戶體驗中這種階躍式的功能與擁有數千萬甚至數億客戶的公司息息相關。這些公司是世界上規模最大的公司。真正令人興奮的是,我認為很多人在考慮用於客戶體驗的人工智慧客服時,會想到聯絡中心自動化,而這才是其中很重要的一部分。但如果你從我剛才說的角度來思考,你會發現,現在你與客戶的對話次數比以前多了一到兩個數量級,而成本卻保持不變。這真的非常了不起。想想所有競爭的公司,比如手機公司,都在爭奪一個固定的客戶群體,而這些客戶都在努力決定與那家公司合作。如果你能將客戶關注度提高100個基點,那就意義重大。如果你能將客戶流失率降低500個基點,那就能改變公司的終身價值方程。所以我認為人們正在考慮這個問題。我認為這實際上是降低電話成本的首要效應,這很棒;你可以省下這筆錢,並將其返還給股東。但我認為更成熟的公司會問:“我真的能獲得市場份額嗎?” 這真的非常令人興奮,而這正是我們正在努力為世界上一些最大的品牌實現的目標。04、無需人工介入的聊天機器人Alex Heath:你們現在有沒有客服人員在無需人工參與的情況下為客戶做事?我指的是超越聊天機器人的客服人員,他們做的事情實際上與經濟掛鉤,或者說,那些你以為會有人參與但實際上並沒有人參與的事情。現在有這方面的例子嗎?Bret Taylor:我舉幾個例子。我們有一些零售商,你可以提交受損商品的照片,並立即裁定保修索賠,系統會連接到庫存系統並給您寄送新產品。你還可以通過我們平台上端到端的人工智慧代理為您的房屋進行再融資。Alex Heath:無需人工介入?Bret Taylor:無需人工介入。這些代理在處理各種任務方面非常出色,你可以使用基於 Sierra 平台建構的代理來採取行動——我們 100% 的客戶都在這樣做。某種程度上,人工智慧中存在一種叫做檢索增強生成(retrieval augmented generation)的技術,這是一種更貼切的說法,它就是在回答問題。事實證明,這在目前已經成為一種商品。將 ChatGPT 與知識庫整合起來並不難。如今大多數工程師可以在一個周末內完成,這真是令人難以置信。三年前這還是科幻小說;現在卻是一個周末就能完成的項目。歡迎來到科技世界。它令人驚嘆。其實,把複雜的監管流程加上精密的護欄……這是一個很大的挑戰。我們服務的行業包括健康保險支付方、醫療服務提供者、銀行、財產和意外險公司。如果談到理賠處理這種高度監管的複雜對話,它絕對不是“檢索增強生成”(RAG)能解決的。這是帶有合規審查的複雜互動。那你怎麼用 AI 護欄來保證?又怎麼用確定性規則的護欄來保證?你還得解決一些很瑣碎但極難的問題,比如在 40 多種語言裡的轉錄精準性。如果轉錄系統漏掉了一個“and” 或 “or”,其實無傷大雅;但如果漏掉的是你的帳號,那就大問題了。所以難點在這裡。我們做過道路救援的項目,結果發現一個細節:如果你在和 AI agent 對話時,旁邊突然有汽車喇叭聲,它經常會停止說話,因為它會誤以為你在打斷它。它根本分不清這是汽車鳴笛還是你在說話。我們的平台就是為解決這些問題而設計的:有效的護欄、多語言的文字與語音對話、確定性護欄、AI 驅動的護欄(我們稱之為“監督模型”),這些都非常有效且有趣。還有一些看似簡單的能力,比如能區分“那只是電視的背景音,沒有人在說話”,或者“那只是汽車喇叭聲,不代表有人打斷我”。這些在三四年後可能會變得容易,但現在非常困難,也正因如此,我們的產品才有很大需求。05、語音賽道:從上網站變成了打電話Alex Heath:我很高興你提到語音。我也很好奇,除了聊天之外,語音會如何進入這個領域?你覺得語音會不會比文字更重要?我認為會的。語音已經在我們的平台裡佔比超過文字了,這其實挺驚人,因為我們去年 11 月才推出。我覺得原因有幾個。首先,從人的角度來看,如果你看未來電腦的電影,或者科幻小說對未來的想像,幾乎都是通過對話與電腦交流的。我認為語音是最符合人體工學的介面。人人天生都會說話,不需要學習。它的摩擦成本極低,幾乎人人都能使用。我們常說“數字鴻溝”,如果未來大部分的數字互動都可以通過說話完成,這將極大提升普惠性,尤其是在多語言和耐心的語音系統支援下。如果你看電信行業、健康保險行業,很多客服依然依賴電話。不只是患者或消費者,服務提供方和支付方之間也還是靠電話。AI 做的事情,是第一次把這個最古老的模擬管道——公共電話交換網,真正變成了數位化。過去幾乎每家公司都有一個“數字自助服務團隊”,說白了就是希望你上網站辦事而不是打電話。這樣對你更快,對他們更省錢。公司還專門組建團隊去推動這個。現在情況卻變成了:也許你直接打電話吧,沒關係,因為同一個 AI agent 在接聽電話,也在網站上服務你。這聽起來有點瘋狂。你可以把它類比為 TCP/IP : TCP 運行在 IP 協議上。我們其實是把網際網路“放進了電話”,讓電話第一次成為數位技術的一個通道。因此,從創業角度看,有句老話:要做“止痛藥”,而不是“維生素”。因為人們一定會買止痛藥,但維生素只是錦上添花。這就是一個真正的“止痛藥”。電話管道是最昂貴、最繁瑣的管道,而且大家都討厭它。即使你遇到史上最好的客服代表,你通常也是在等待了十分鐘之後才和他講話。因為讓呼叫中心做到“客戶永遠不用等待”在經濟上根本不可持續。所以電話現狀是一個所有人都討厭的局面:消費者討厭,公司討厭,沒有人會替它辯護。而現在這項技術可以直接解決這個問題。這就是我為什麼認為它會產生巨大影響。但展望未來,局面其實還不確定。即便我身處 AI 領域的核心,也無法精準預測世界將走向那裡。但我覺得這是極其令人興奮的。如果你看看 WhatsApp 在巴西和印度的使用方式,就會想:也許這種會話式互動會在其他市場同樣無處不在。我大概四年前去巴西時就被震驚了,有人直接在 WhatsApp 上辦理抵押貸款。我問他在幹嘛,他就直接上傳 PDF 檔案。突然間,你會發現,如果未來每家公司都用會話式 agent 來做客戶服務,那可能每家公司都會在 WhatsApp 上有一個業務入口,或者智能音箱可能會捲土重來。我會想到每天開車上班時用 CarPlay。我很喜歡這個產品的很多地方,但它其實什麼都做不了。想像一下,你在通勤途中,一邊駕駛,一邊通過個人 agent 整理郵件、對話交流,你的通勤時間一下子就變得超級高效。這就像在車裡和一個“無所不知的私人助理博士”聊天,挺酷的。我覺得這是令人興奮的方向。我們一直談論手機,因為它的經濟影響力巨大。而現在,我們正在讓電腦“變得可對話”,我認為這既是一種使用者介面的變革,也是一種技術層面的變革。而且,我從未覺得這種體驗是被強行推銷給我的。前幾天我拿著手機打電話——就像這樣(對線上觀眾,我現在把手機貼在臉側)。在此之前,我一直覺得這是很正常的做法。但我的孩子說:“你居然把手機貼在臉上?”那種語氣,就好像我在舔手機一樣。小孩子們打電話的方式完全不一樣。我從沒覺得自己這種方式奇怪,直到那一刻。然後我心裡冒出一句:“天啊,我真老了。”你會意識到,孩子們在完全不同的技術環境中長大,從來沒見過撥號電話。他們和技術的互動方式天然不同。如今的年輕人會在一個理所當然的世界里長大:當然電腦能理解我說話裡的細微差別和諷刺語氣,當然我有一個個人 AI agent,能替我做下一次旅行的研究。我覺得我們甚至還沒想清楚這種代際差異帶來的二級、三級影響。就像我孩子覺得我把手機貼在臉邊很奇怪,這仍然讓我很費解。但我相信,我們正站在一個極其重大的趨勢起點。某種程度上我很樂觀,儘管我和許多人一樣,也讀過《焦慮的一代》(The Anxious Generation),我自己也會因為盯著口袋裡那塊發光的螢幕而有點上癮。你會想,如果快進四五年,軟體會不會“融化”進背景中?很多繁瑣的事——比如等待接通電話、找不到客服電話號碼——會不會被這類技術徹底解決?那時可能會是這樣的:“隨時打給我們吧。” 系統會知道我所有的情況:如果我在地鐵上,不想讓別人聽到,就通過文字聊天;如果我手上拿著東西,就選擇語音。這一切都會自動可用。所以我對這一趨勢很興奮。就像所有的技術演進一樣,我們現在可能還在馬斯洛需求層次的底層,很難想像到達“自我實現”的頂端是什麼樣子。但我相信我們會很快走到那一步。我們在 Sierra 的願景,是幫助世界上每一家公司應對這種轉變。第一步是為客戶創造一種卓越的服務體驗,讓他們感到被尊重、被重視,而且是個性化的。第二步是讓公司能夠應對未來的不確定性。比如,會話式商業意味著什麼?當人們在 OpenAI 上做消費研究而不是用搜尋引擎時,這意味著什麼?我相信很多人已經這樣做過了。比如你拿到一份實驗室檢查結果,我會第一時間把它上傳到 ChatGPT,在和醫生交談之前先看看結果。我不知道醫生對此會作何感想,但我敢保證,他的其他病人 100% 也在這麼做。整個世界都在改變。所以我們在 Sierra 想的很多問題就是:如何幫助每一家公司在這種新世界裡獲得成功。06、Agent真正的技術秘方,不在於預訓練Alex Heath:從技術層面來說,你們會自己開發模型嗎?你們真正的技術“秘方”是什麼?是模型,還是別的東西?Bret Taylor:我們做了很多微調,但我們不會自己預訓練模型。我認為大多數應用型 AI 公司都不該做預訓練。模型是一種快速升值的資產,但投入巨大,對股東來說回報未必可觀,同時也極其複雜。比如我們平台上的某個 agent,要生成一條回覆,背後可能會觸發 20 多次推理呼叫。這能讓你體會到複雜度:系統裡有很多不同的模型,不是單一的供應商,也不是固定的參數規模(參數量只是衡量模型複雜度的指標之一)。我覺得應用型 AI 公司未來的走向,就有點像當年大家在問:“資料應該怎麼儲存?” 對在座的技術人員來說,市面上有數以萬計的資料庫和儲存系統,從 Snowflake、Databricks 到傳統事務型資料庫。今天,一個現代的技術人已經會根據具體場景來選擇最合適的工具。應用型 AI 的發展方向也是這樣,不是通用人工智慧(AGI),而是把模型當作真正的基礎設施。有時你需要最快的,有時你需要最便宜的,有時你需要最優質的。這個價格、性能、延遲的選擇矩陣裡,總能找到對應業務需求的選項。我認為它最終會變得像資料庫市場一樣。真正的實踐者是建構這些 agent 和應用的開發者,而不是那些懂得如何預訓練模型的研究員。我的直覺是,隨著上下文窗口不斷增大、模型對規則的遵循能力增強,連微調的重要性都會逐漸下降。未來,基於模型建構應用的門檻,可能就像今天“你懂怎麼用資料庫嗎?”而不是“你懂怎麼寫資料庫嗎?”。這兩種技能完全不同,而應用型 AI 正在走向這種格局。07、GPT-5絕對是質的飛躍Alex Heath:我們在 GPT-5 發佈時看到,模型確實還在變好,但性能提升不像以前那樣“跨越式”了。也許隨著領域加速會有所不同?Bret Taylor:我不完全同意你的說法,不過我打斷你了,你先把問題說完。Alex Heath:你當然不該同意,你還是 OpenAI 的董事呢(笑)。不過我的意思是,你是否認同這樣一個觀點:模型本身正在逐漸商品化?你之前也把它們稱為“基礎設施”。如果這是真的,二階效應會是什麼?是不是意味著模型最終會變成“即插即用”,當然會有一些差異化特性,但不像過去那樣帶來劇烈的性能飛躍?Bret Taylor:我剛才不同意,其實不是因為我“護 OpenAI”,雖然我確實是(笑),而是因為我覺得這很依賴具體任務。比如,如果有人用過 GPT-4.0 或 4.1 來寫程式碼,然後換成 GPT-5,你會看到性能上非常明顯的躍升。所以從編碼這個任務的角度看,它絕對是一個跨越式的改進。對於正在建構編碼 agent 的人來說,你剛才的說法並不成立,GPT-5 確實是質的飛躍。今年我還用 ChatGPT(4)幫我計畫了一次假期,體驗挺好。如果換成 GPT-5,結果可能就是“嗯,好吧,好像更好一點”,但我本來就過了個很棒的假期,所以也許我的期望沒那麼高。也可能結果會好很多。我覺得我們正在進入這樣一個階段:對很多任務來說,模型的智能已經“夠用”了。所以新模型出來時,如果你衡量的標準是“幫我規劃假期”,你會覺得提升不大。但如果是做藥物研發、發現新的療法,或者要自主編寫複雜軟體,或處理複雜的非同步 agent 任務,那你對“跨越式改進”的感受就完全不同。所以我的直覺是——僅代表我個人,人們對“模型到底提升了多少”的感知,會越來越取決於他們要解決的問題的複雜度。Bret Taylor:如果你想想建構通用人工智慧(AGI)意味著什麼,其實我們還需要更多進步。OpenAI 的一位研究員 [Sebastien Bubeck] 在 X 上發了一條很有意思的帖子,他給模型一篇數學論文,模型居然提出了一種相對新穎的解法,涉及一種我完全不懂的數學分支。這已經超出了我能評價的範圍,但它真的很有趣,很有創造性,甚至有點像 AlphaGo 那種“啊哈時刻”——居然能推匯出一種全新的數學思路。毫無疑問,如果我們要走到能自主推進 AI 研究、發現新藥療法、解決一些懸而未決的數學難題的階段,還需要大量工作。我們還沒到那一步。但我猜你的評論可能是出於另一種動機:在很多任務上,這些模型已經足夠用了。回到你的問題,這意味著什麼?我認為 OpenAI 是一個使命驅動型公司。我們的使命是確保通用人工智慧造福全人類,我們要朝著有益的 AGI 努力,但我們還沒達到。我們需要持續推進研發。某些方面它們已經“超智能”了,但更多方面還遠遠不夠。這正是我們努力的方向。這是不是意味著對 Sierra 要解決的任務,或者在你個人生活裡要做的事,我們需要那種超強大的模型?未必。我覺得最終會形成一個多模型的生態,每個模型都有它最合適的用武之地。但讓我興奮的是,就在舊金山這片土地上,我們還沒走到終點。我們要創造 AGI,這本身就足夠讓人激動。儘管有人覺得模型的進步速度在放緩,但我不太認同。從一些真正的研究突破來看,比如數學奧賽的成績,這是之前的模型完全無法達到的全新高度,我認為這非常令人振奮。08、三年前我心中的AGI已經實現了Alex Heath:既然你提到了 AGI,我越來越覺得沒人能真正說清楚 AGI 的定義。但作為 OpenAI 的董事長,你對 AGI 的理解就顯得尤為重要。我很想知道你認為 AGI 的含義是什麼?過去一年裡你的看法有變化嗎?你有沒有一個明確的判斷:當我們達到某個標準時,AGI 就算實現了?Bret Taylor:先回答最後一個問題:有變化。三年前我心目中的 AGI,現在其實已經實現了。事實上,我覺得全世界絕大多數人在三年前設想的 AGI,現在都已經出現了。比如圖靈測試。說實話我不記得論文裡的原始定義是什麼,但在電腦科學課上,它被教作:與 AI 對話時,它的回答和人類幾乎無法區分。這個關口我們早就跨過了。圖靈測試曾經在 AI 領域非常重要,但我們已經超越它好多年了。坦率地講,那是這位史上最聰明的電腦科學家提出的一個糟糕主意。我們不斷“移動球門線”,因為技術一次次超出了我們的預期。很多我們直覺認為的“AGI”,早就被突破了四五次。我現在的理解(以後可能還會變)是:在數位技術與思想的領域,這些模型是否在大多數領域已經達到或超越了人類智能?我特別強調“數字與思想領域”,因為比如發明一種新數學,這是很多人認為屬於 AGI 或超智能的範疇;但與物理世界互動則是另一回事,那與智能本身無關。比如你可以發明一種新療法,但臨床試驗完全是另一套流程。所以我在意的,是衡量“智能”這一部分。AGI 中另一個字母 G 代表“通用性”。我和很多研究人員討論過,有些人認為如果一個模型在數學上表現極佳,它也會在很多其他任務上也會表現出色,因為數學是推理的基礎。但也有人懷疑,它能不能遷移到生物學等完全不同的領域?我更傾向於認為,如果某項能力(比如數學奧賽水平)不是專門訓練的,而是模型整體能力的副產品,那它就具備良好的泛化性。但我們還需要觀察,看看它是否真的能遷移到科學的其他分支。不過就進展速度和研究成果來看,我越來越樂觀。我甚至期待第一項真正由 AGI 主導的科學突破。我覺得可能就在未來幾年,雖然說不準,但感覺很快就會發生。當然,這個問題更該去問 OpenAI 的研究員。不過從一些早期跡象來看,它真的越來越可能。09、超級智能是“換口號”Alex Heath:為什麼像你之前的老闆 Mark Zuckerberg 這樣的人,現在在談論“超級智能”?這裡矽谷和舊金山到處都在說這個詞。是不是因為大家覺得,“圖靈測試過了,那我們干脆升級個名號”?Bret Taylor:(笑)是的,可以說是一種“換品牌”。Alex Heath:換個名號?所以區別到底是什麼?老實說,我不是很明白。Bret Taylor:“超級智能”,我覺得字面上就是比人類更聰明。所以如果要細分的話,假如你造出了一個在各方面都和你我一樣聰明、一樣好用的通用智能,那是不是顯得有點“平庸”?(無意冒犯你啊,Alex。)我覺得要是我們能做到這一點,本身就很了不起了。對我來說,你已經夠聰明了。所以我認為“超級智能”代表的是一個更高的門檻,真正意義上超凡的智能。從研究和安全形度看,討論超級智能是有意義的:一旦模型超越了人類的推理能力,我們該如何監控?如何確保它的安全?這時候必須用技術來監控技術。如果它的能力已經超過了人類,那只有靠另一層技術來監督。這在非 AI 的領域也有先例,比如飛機和汽車裡有很多監控系統,用來捕捉人類無法感知或處理過快的情況。這就是一個非常重要的研究方向。所以我覺得談論它是有價值的。至於公關層面的用語,我沒什麼意見,也不太關心。但在安全層面,這是一個核心問題:如果你無法理解它,怎麼確認它和人類的價值觀一致?更重要的是,這種“理解”必須來自人類,還是可以來自我們專門設計的“監督 AI”?這其中有很多技術與哲學層面的問題,需要我們在發展過程中去回答。10、AI泡沫就像當年的網際網路泡沫我最近和 Sam(Sam Altman)一起吃過一頓飯。那頓飯後來被報導得很熱,因為Sam 說他覺得我們現在正處於一個 AI 泡沫裡。他的原話是:“一定會有人虧掉一大筆錢,我們不知道是誰。同時,也會有人賺到一大筆錢。”Alex Heath:這聽上去像經典的行銷圈段子。Bret Taylor:嗯?Alex Heath:“我的行銷預算裡,只有 50% 有效。”Bret Taylor:那 50%?Alex Heath:我也不知道是那 50%。Bret Taylor:(笑)對。你問我同不同意?當然同意。我之前打過比方,Alex,如果你聽過的話請見諒:我覺得現在的情況和當年的網際網路泡沫有很多相似之處。很多人只記得 Pets.com、Webvan 這樣的失敗案例。但如果從 30 年的視角來看,網際網路其實孕育了全球最大的一批公司,比如亞馬遜和Google。再看看微軟,它如今市值的很大一部分來自雲業務等新興領域。要是你從全球 GDP 的角度去衡量網際網路的影響,其實當年 1999 年那些“過度樂觀”的人,也並不算錯。即便是 Webvan 這樣的案例,後來隨著網際網路基礎設施和智慧型手機普及,出現了 Instacart、DoorDash 這樣的成熟公司。換句話說,很多點子本身並不差,只是時機太早了。如果你在亞馬遜 IPO 時就買了股票,現在的回報相當不錯;但如果你買的是 Webvan,那感受就完全不同了。兩種結果同時存在。而今天的大模型和現代 AI 技術,光是放在軟體工程和客戶服務這兩個場景裡,就足以對經濟產生巨大影響。你看,世界上從來沒有過“軟體工程師足夠多”的局面。但隨著程式碼智能體的出現,這可能會改變。因為我們正在把一種稀缺資源(軟體開發能力)變得更加充裕。那軟體開發的市場規模到底是多少?我不知道,甚至沒法衡量,因為今天幾乎每家公司都在某種意義上是軟體公司。所以我覺得,結果幾乎是必然的:一定會有巨大的贏家。經濟機會在那裡,自然會吸引大量投資,而有些公司會失敗,有些會成功。就像當年鋪設光纖的公司,很多最後破產了,但光纖網路依然被後來的企業、私募基金或其他買家利用起來。所以我認為兩件事可以同時成立:AI 一定會改變經濟格局,它會像網際網路一樣創造巨大的經濟價值;但同時我們確實也處在一個泡沫期,會有人賠掉大量資金。這兩者在歷史上都有充分的先例。11、AI的泡沫遠比麻省理工報導的嚴重Alex Heath:你會擔心泡沫恰好發生在你所在的 AI 企業級市場嗎?麻省理工不是剛有個報告嗎,說很多企業在 AI 上的投入並沒產生回報。我知道你們的定價模式是基於效果的,但看起來不少企業砸了錢,卻沒得到想要的結果。如果這種情況反轉,會怎樣?Bret Taylor:我會把“擔不擔心”跟那份研究報告分開說。我確實擔心,但不是因為那份研究報告,我不太同意它的結論。所以我會先說說我的擔心,再回到報告,因為報告本身其實比我的擔憂更樂觀一些。你知道,有個關於我重寫 Google Maps 的故事,外界傳得挺多。大體是真的,只是像所有好故事一樣被添油加醋了些。大家喜歡講這個故事,因為它聽起來很厲害:“一個人周末寫了一堆程式碼。”可現在你用過 Codex 或 Claude Code,你就會想:“哦,我完全可以讓 AI 智能體在周末幫我寫完。”所以曾經讓人驚嘆的事,甚至是我個人身份的一部分,很快就會變成 AI 智能體的日常操作。也許現在還不行——我寫的程式碼還是挺不錯的(笑)。但兩三年後?完全沒問題。所以過去會被說“哇,好厲害”,未來會變成“居然以前是人幹的?”從商業角度看,那未來的軟體市場會是什麼樣?這是個非常好的問題。因為當你順著這個線索往下想,就會發現很多東西可能會到達瓶頸。比如自動駕駛,大家當年非常興奮,但事實證明需要的時間遠比預期長。所以即便是聰明人,也會在這些事上判斷過於樂觀。可一旦 AI 智能體真的能做軟體開發,那就是把最稀缺、薪酬最高的工作之一交給了 AI。這會帶來什麼結果?很多人問我:“那我還要不要學電腦科學?”我的答案是“要”,但老實講,沒有人真的知道未來會怎樣。Alex Heath:我們會不會進入這樣一個世界:軟體生成(大多數軟體人都知道,生成其實不是軟體裡最難的部分),會在很大程度上變成一種商品化的東西?也許會。很多人是這麼認為的。那麼這對軟體市場意味著什麼?我的假設其實是,它不會帶來太大改變。當你買一個 ERP 系統時,你真正買的並不是那些 0 和 1。你買的是這樣的事實:很多公司把他們的帳本放在上面,你可以每個季度順利結帳,它很可靠,伺服器會有補丁更新,確保你的雲 ERP 系統不會出現安全漏洞,它還有各種合規認證和其他並不令人興奮,但卻是企業軟體中既無聊又重要的部分。如果你是一家大型 CPG(消費品包裝)公司,能自己寫一個 ERP 系統,這是個好主意嗎?我並不完全相信。 我一直喜歡說,軟體就像草坪,你必須打理它。所以如果你自己寫了,就等於買下了它,對吧?你必須擁有、維護、處理它的一切。比如有新的會計準則出來了,那你就得自己去更新。所以我認為軟體生成會改變我們寫軟體的方式,但會不會徹底顛覆企業軟體市場的存在格局?我並不完全相信。也許我錯了。12、企業要的不是自己寫軟體,而是解決方案Bret Taylor:這其實很新。我們正進入一個全新的世界,因為我們把稀缺的東西變得充足。我最近常常想到一部電影,也推薦大家去看,就是《隱藏人物》(Hidden Figures)。這是一部關於登月的偉大電影,但特別關注的是那些做數學計算的女性們,她們當時的職位叫“電腦”。我是一個電腦。我看這部電影之前並不知道“電腦”原來是一個工作崗位,我還和我的孩子們一起看了。有趣的是,其中一位女性看到 NASA 引進了一台 IBM 電腦,佔滿了一個客廳,她非常機靈地去學習如何用打孔卡程式設計,本質上是為了保住工作。我們現在其實也都在經歷這樣的時刻。就像“我是電腦”。我剛才講 Google Maps 的故事,其實也就是一個計算器的故事。但二階、三階效應還比較模糊。我相信企業軟體市場會從“軟體”轉向“智能體”,但我相信公司想買的還是“問題的解決方案”,而不是自己去寫軟體。所以我認為這個市場會繼續存在。至於那項研究,我不太清楚資料基礎,但我覺得問題在於它把“企業自己寫軟體”與“購買現成的 AI 解決方案”混為一談了。這其實是兩種完全不同的 AI 採用方式。我們和客戶做的基本上是 100% 成功率——從概念驗證到平台上線。而我認為原因在於,我們賣的不是 AI,而是客戶體驗。你一打開就能用。在舊金山有一家很棒的公司叫 Harvey,我其實不知道總部在那兒,但它真的很不錯。我和很多律師事務所聊過,他們部署 Harvey 做法律分析,全都很成功。但這不是一個“AI 項目”。Harvey 的確用了 AI,這是它能存在的唯一原因。但客戶買的不是“AI”,而是更好的反壟斷審查流程,這就是他們想要的東西。13、現在的AI市場:多是表演性項目要麼等,有麼自己做Bret Taylor:我覺得我們現在還處在 AI 的早期階段。你還沒辦法在市場上為你業務的每個問題都找到一個完美的供應商。所以結果就是:要麼等,要麼自己做。我不知道那個是對的。但當你試圖自己做時,複雜度簡直是“冰川級”的。於是現在市場上有很多我稱之為“AI 觀光”的東西,即,大家做一些表演性的 AI 項目,但真正把它推進到最後一公里是非常難的。我認為最終的解決方案會是應用型 AI 公司。比如說,如果你想打造更好的客戶體驗,那就買 Sierra;如果你想要法律智能體,那就買 Harvey。我認為我們需要把所有的應用場景都過一遍,從供應鏈最佳化到會計,再到你會計部門的審計員,這些都會是 AI 智能體。但我相信每一個垂直領域都會有一家公司來做,而這才是打包和購買 AI 軟體的正確方式。我覺得那項研究反映的,其實就是市場不夠成熟——很多領域還沒有現成的解決方案。但今天現場有一些風投朋友,希望幾年後多虧你們,這些公司會逐漸出現。而我相信,這些新的智能體公司會成為企業業務解決方案的下一個前沿,就像當年的 SaaS 一樣。Alex Heath:好的,Bret,我們就到這裡。非常感謝。Bret Taylor:謝謝邀請我來。 (51CTO技術堆疊)
【WAIC 2025】AI 教父Hinton 中國首次演講實錄:人類可能是大語言模型|WAIC 2025
WAIC 首日,便以重磅嘉賓開場——諾貝爾獎得主,人工智慧教父Geoffrey Hinton,發表了開幕演講。緊隨其後的是MiniMax 創始人、首席執行官閆俊傑的主題演講“每個人的人工智慧”。後續則是一系列的專家圓桌對話。作為最關注AI 治理及安全問題的頂級專家,Hinton 一如既往地表達了他對AI 治理的關心。從自己的研究生涯開始,他分享了大模型的變遷以及背後的技術範式。最後他呼籲建立一個由多個國家參與的國際AI 安全研究網絡,專注於研究如何訓練AI 向善。MiniMax 創始人及首席執行官閻俊傑則以「每個人的人工智慧」為出發點,分享了他作為國內最早一批研究深度學習的研究者,以及最早開始探索大模型的公司,最後提出:AGI 一定會實現,並且終將是面向大眾、服務大眾,同時,也需要AI 公司與所有的使用者,共同來實現。以下為二人演講內容整理,經編輯與刪減。數字智能是否會取代生物智能演講者:Geoffrey Hinton從大約60 年前開始,AI 就發展了兩種不同的範式。一種是「符號主義」路徑,強調邏輯推理的能力。我們透過規則運算子號來進行推理,這種方式可以幫助我們理解知識是如何被表達和處理的。這類AI 模型的基礎是對符號的處理,被認為更符合邏輯智能的本質。另一種路徑則以生物智能為基礎,是圖靈與馮諾依曼更傾向於相信的方式。他們認為智能的本質在於從神經連接中學習,在於速度、結構和連接模式的改變。這種「連接主義」強調的是學習與適應,而非顯式的邏輯規則。1985 年,我曾經建構過一個非常小的模型,試圖將這兩種理論結合起來。我的想法是:每一個字都可以由多個特徵(features)表示,而這些特徵之間可以用來預測下一個字。這個模型不儲存完整的句子,而是透過生成語言來學習詞彙之間的關係。這種方式強調語言中的「語義特徵」——也就是說,我們並不是僅僅靠規則,而是透過「理解」詞彙的語義來進行預測。這為後來計算語言學界接受特徵表示打下了基礎。二十年後,這種想法得到了進一步發展,例如被用於建立更大規模的自然語言處理系統。大模型與人類語言理解Google 的Transformer 架構,以及OpenAI 研究者所展示的大型語言模型(如GPT),則把這種模型放大到了新的高度。這些模型的底層原理與我當年建構的小模型類似:將語言中的詞彙視為具有多維特徵的「構件」,然後在多層神經網絡中進行組合、融合,從而實現語言生成與理解。我喜歡用「樂高積木」作為比喻。每個字就像一個多維度的樂高積木,具有成千上萬的特徵維度。理解語言就像用這些積木建模,不同的詞要以合適的方式「握手」,即匹配連接點,這種匹配方式反映了詞與詞之間的語義關係。如果字的形狀改變了,它與其他字的「握手方式」也會變化,語言的意義也隨之改變。這種構造方式類似於蛋白質摺疊:胺基酸在空間中的不同組合方式,最終決定了蛋白質的功能。人腦理解語言也是以此方式建構語意結構的。這與人類知識傳播完全不同。我無法把我的神經元結構「複製」到你腦中,語言只能以極低的位元率(一秒大約100 位)來傳遞資訊。而在數字系統中,一個神經網絡模型可以複製成成千上萬個版本,它們在不同裝置上學習,並且可以快速共享權重,遠遠超越人類知識傳播的速度和效率。我的觀點是,人類理解語言的方式和大語言模型的方式幾乎是一致的。人類甚至可以被視為一種大語言模型。也正因如此,人類也和AI 一樣會產生「幻覺」,因為我們也會自己創造出一些不真實但合理的解釋。當然,也有本質上的不同。 AI 在某些方面比人類更強。例如在電腦科學中有一個根本性的原則,那就是:軟件可以被抽象化、被覆制,並且在不同的硬體上運行。只要程式存在,它的知識就不會消失。你甚至可以毀掉所有的硬體,只要軟件代碼還存在,它就能被覆活。從這個角度看,程式中的知識是永恆的,不會死亡。這和人腦完全不同。人腦是模擬系統,每一次的神經元激發都是獨一無二的,是不可完全複製的。你不可能把你腦中的神經結構複製到我腦中,因為我們每個人的大腦連接方式都不同。這就導致一個關鍵問題:知識在大腦中是和硬體繫結的,而在數字系統中,知識可以和硬體分離。因此,AI 系統具有「永生性」。這種特性帶來了兩個巨大的好處:第一,它只需要非常小的能耗。人腦的功率大約只有30 瓦,卻擁有上兆個神經元連接,這和數字系統的能源效率比類似。第二,我們不需要花大錢去一模一樣地複製每一個神經網絡。當然,我們在知識傳遞方面仍面臨一個難題。比如說,我沒有辦法直接把我腦中的知識「展示」給你,因為那是模擬性的東西。我只能用語言向你解釋我學到的內容。知識蒸餾與教師-學生模型為瞭解決模型體積與計算資源問題,現在的研究越來越傾向於「蒸餾」技術:從大模型中提取知識,轉移到一個小模型中。這個過程就像教師與學生之間的傳授關係:教師透過語言、脈絡連結等方式將知識傳遞出去,學生則試圖理解並複製這種能力。不過這種過程在人類之間的效率是非常低的,畢竟語言的帶寬有限。而在機器之間,這種知識的複製可以在極大規模下進行,以實現指數級的知識轉移。AI 的能力正在快速成長,未來它們很可能變得比人類更聰明。有人可能會認為,萬一AI 不聽話,我們可以把它關掉,但這並不現實。如果AI 夠聰明,它會透過操縱人類、獲得控制權等方式來避免被關閉。這個問題就像養一隻小老虎當寵物一樣——在它還小的時候你覺得可以控制它,但等它長大以後,就可能失控。 AI 的能力可以帶來巨大的好處,例如提高醫療、教育、應對氣候變化和材料研發的效率。它不會消失,也不可能被單一國家所控制。全球合作的希望雖然不同國家的利益存在分歧,在如網絡攻擊、致命武器或輿論操控方面也難以形成有效合作,但就像冷戰時期美蘇合作避免核戰一樣,各國在AI 安全方面是有可能合作的。我的建議是建立一個由多個國家參與的國際AI 安全研究網絡,專注於研究如何訓練AI 向善——這與訓練AI 變聰明是兩件不同的事。每個國家可以在本國進行AI 安全研究,但應分享成果,協助全人類發展出願意協助、而非統治我們的智能體。從長遠看,這可能是人類最重要的議題。而好消息是,這個問題是全人類可以團結起來共同面對的。每個人的人工智慧演講者:閻俊傑MiniMax 創始人、CEO大家好,我今天分享的主題是「Everyone's AI」,也就是「每個人的人工智慧」。這個題目的選擇,其實和我過去這些年在AI 領域的經歷息息相關。我是在Hinton 先生剛發表AlexNet 時進入深度學習領域的,那時我還是國內最早一批研究深度學習的博士生。後來,當AlphaGo 讓AI 成為社會公眾關注的焦點時,我正參與第一家人工智慧創業公司。再往後,差不多是在ChatGPT 推出前一年,我們創立了國內最早做大模型的公司。從那時到現在已經十五年,在這段時間裡,我幾乎每天都在寫程式碼、做實驗、解決具體的問題。但與此同時,我心裡也反覆思考一個問題──人工智慧到底是什麼?它和這個社會究竟有什麼關係?隨著模型表現的不斷提升,我們慢慢意識到,AI 的確正在和社會建立越來越緊密的連結。最初我們做數據分析時需要自己寫軟件,後來我們發現,其實可以讓AI 來產生分析軟件,自動完成數據處理的工作。作為一名研究員,我很關注各個技術領域的進展。一開始我們想開發一款App 來追蹤科研動態,但後來我們發現其實不需要自己去做,只要建構一個AI agent,它就能自動地幫我們完成,而且效率更高。AI 不僅僅是一種工具,它也正在變成創意的來源。比如說,這個場館曾在十五年前舉辦過世博會,當時「海寶」這個吉祥物形象風靡一時。十五年過去了,上海有了許多新的發展,我們想嘗試產生一些具有在地特色、又能代表當代潮流的IP 形象。 AI 在這方面的能力非常出色,例如為徐匯書院或大樓設計的形象,它都可以快速完成。還有大家熟悉的Labubu形象,以前製作一個可能需要兩個月的時間、投入上百萬人民幣的預算,而現在通過先進的視頻生成模型,這種視頻一天就可以完成,成本也降到了幾百元。在過去半年裡,我們的模型已經在全球產生了超過三億條視頻內容。這表明,AI 模型正逐步將創意生產大眾化,讓每個人的創意都能被釋放出來。而且,我們越來越發現,AI 的實際使用已經遠遠超出了最初的設計想像。現在有人用AI 解析古文字,有人用AI 模擬飛行,有人用AI 操作天文望遠鏡。隨著模型能力增強,許多原本需要大型團隊才能完成的工作,現在只要一個人借助AI,就能夠實現。這大大放大了個人能力,拓寬了創意的邊界。經過這些年親身的經歷和觀察,我們逐漸形成了一個清晰的認知:我們作為一家AI 創業公司,並不是複製過去的網路公司。我們所做的,是創造一種全新的生產力形態。這種生產力是對個體和社會能力的持續增強。在這個意義上,我們相信AI 是一種能力,而且這種能力是持續成長的。人類不可能永遠保持快速進步,不可能一直持續學習大量新知識,但AI 可以。 AI 能夠不停學習、不停進化,因此我們認為AI 公司本質上不是互聯網公司,而是能夠提供持續性能力增強的組織。更有意思的是,AI 現在也反過來幫助我們打造更好的AI。作為一家研究型公司,我們每天都要寫很多代碼,進行大量實驗。但如今,我們公司大約70% 的程式碼是由AI 自動產生的,90% 的資料分析也是靠AI 來完成的。除了提升效率,我們還發現了另一個重要變化:AI 的提升越來越依賴人類專家的引導。一年前,我們的標註員還主要是非專業人員,做的是一些基礎性標註工作。但隨著模型能力提升,我們發現,只有極少數頂尖專家,才能真正讓AI 學會更複雜的思考方式。這種「教學」不是給AI 一個標準答案,而是教它一種思考過程。學習這種過程,AI 才能變得更加泛化,接近人類專家的判斷和理解能力。除了專家教學,我們還在嘗試另一種路徑──讓AI 在環境中自主學習。過去半年,我們建構了各種訓練環境,從程式設計IDE 到智慧體(Agent)平台,再到沙盒遊戲系統,只要環境設計合理、有清晰的獎勵機制,AI 就可以持續學習、持續進步。這種方式可以被大規模複製,不斷拓展模型能力。基於這些觀察,我們有一個非常確定的判斷:AI 會變得越來越強,而且這種增強幾乎是沒有盡頭的。那麼接下來的問題是,AI 會不會最後被某一家組織壟斷?它是否只能掌握在少數幾家手中?我們的看法是否定的。 AI 不會只屬於某一個組織,而是在多家公司和多個組織之間共同發展,原因有三。首先,不同模型有不同的對齊目標。有些模型設計時更像是嚴謹的程式設計師,適合做智慧體系統;有些模型則更注重人機互動,更像有情緒智商的對話夥伴;還有一些模型充滿想像力。這些差異不僅反映了模型能力的多樣性,也反映了背後公司的價值觀差異。因此,必然會長期存在著多個表現不同的模型。其次,現在越來越多的系統是由多個模型所構成的多智能體架構,不再依賴某一個單獨的大模型。這些系統整合多個模型和工具,在協同工作中展現出更高的智慧和解決複雜問題的能力。這意味著單一模型的優勢在系統中會被削弱,小公司也能參與競爭。最後一點,我們也看到了開源模式的強勢崛起。儘管目前性能最好的模型仍以閉源為主,但優秀的開源模型數量正在迅速增加,而且正在快速逼近閉源模型的能力。開源力量讓更多人參與AI 的發展,使得AI 不再是某一方的專屬資源。因此,我們相信,AI 的發展趨勢是普惠的。它不會被少數人壟斷,而是逐漸成為所有人都能使用的工具。我們看到的實際情況也支援這一判斷。過去一年半里,主流模型的規模其實並沒有大幅成長。為什麼?因為一個很現實的因素是推理速度。推理如果太慢,使用者體驗就會變差,不實用。所以大多數模型設計時都必須在參數規模和計算效率之間做權衡。晶片效能每十八個月提升一倍,模型大小基本上也跟著這個趨勢變化,並沒有無限膨脹。雖然大家都有更多的算力了,但這些算力更多地被用在了更複雜的訓練任務和推理優化上,而不是堆模型參數。訓練的成本並沒有大幅上升,真正拉開差距的,不是算力,而是實驗設計的能力、團隊效率和創新力。沒有特別多資源的小公司,也可以通過優化實驗流程,達到很高的研發效率。推理方面,情況也類似。在過去一年,最優模型的推理成本已經下降了一個數量級。未來一年,這個成本還有可能再降低一個數量級。也就是說,AI 正在變得越來越便宜、越來越實用。當然,儘管token 單價下降,使用量卻在急劇增長。例如去年,一個對話只用幾千個token,現在可能會消耗幾百萬個,因為問題更複雜,使用者更多。這也意味著,雖然單位成本低了,但整體需求仍在上升。綜合來看,我們的判斷是,AI 會變得每個人都用得起。雖然付費能力不同的人能解決的問題數量可能不同,但AI 的使用門檻會越來越低。最後,我想用一句話來總結今天的分享:Intelligence with Everyone。這不僅是我們的口號,也是我們創業的初心。我們堅信,AGI 一定會實現,而它的實現不會只是某家公司的勝利,而應當是整個社會、AI 公司和使用者共同努力的成果。 AGI 應該屬於所有人,而不是少數人。我們也願意為這個目標,長期奮鬥下去。謝謝大家。 (APPSO)
騰訊,大動作!加碼AI
AI的競爭日漸激烈,騰訊在大模型領域的戰略和部署正在持續進化。4月29日,證券時報記者從騰訊獲悉,騰訊對其混元大模型研發體系進行了全面重構,圍繞算力、演算法和資料三大核心類股,刷新團隊部署,加碼研發投入。具體來看,騰訊新成立了兩個部門,分別是大語言模型部和多模態模型部,負責探索大語言模型和多模態大模型的前沿技術,持續迭代基礎模型,提升模型能力。此外,騰訊將進一步加強大模型資料能力和平台底座建設,資料平台部專注大模型資料全流程管理與建設,機器學習平台部則聚焦機器學習與巨量資料融合平台建設,為AI模型訓練推理、巨量資料業務提供全面高效的PaaS平台底座,共同支撐騰訊混元大模型技術研發。記者注意到,最近一段時間以來,騰訊在AI領域的組織架構調整動作不斷。今年2月,騰訊完成系列AI產品線調整。繼騰訊元寶從TEG(技術工程事業群)轉入CSIG(騰訊雲與產業事業群)之後,QQ瀏覽器、搜狗輸入法、ima等更多產品和應用也將匯入CSIG,成為騰訊面向大模型時代打出的全新產品組合。與此同時,QQ瀏覽器、搜狗輸入法、ima等產品所在的團隊和組織將從PCG(平台與內容事業群)調整至CSIG。完成這一系列調整後,騰訊建立起了一個包含元寶、ima、QQ瀏覽器、搜狗輸入法四大產品線的AI產品矩陣。其中,元寶是大模型時代的應用入口及標配的AI助手;ima則是延伸到辦公場景的工具產品;而QQ瀏覽器以及搜狗輸入法,則對應如今競爭激烈的AI搜尋市場。除了建構新的AI產品矩陣,隨著DeepSeek等開源大模型的普及,騰訊系列產品是最早一批擁抱DeepSeek的產品,元寶、ima、QQ瀏覽器、騰訊文件、騰訊地圖、QQ音樂等,均宣佈同時支援混元大模型與DeepSeek模型“雙引擎”,微信搜尋也上線了“AI搜尋”功能並接入DeepSeek-R1。這顯示出騰訊正積極推進“核心技術自研+擁抱先進開源”的多模型策略。如果說此前一輪組織架構調整主要圍繞產品側,那麼本次的調整則主要針對技術側,旨在增強騰訊混元大模型的研發實力。騰訊相關人士表示,這意味著騰訊在快速調整組織架構以應對日新月異的大模型行業發展,這次調整有利於整合資源,最佳化研發流程,進一步提升騰訊在AI領域的長期技術作戰能力。據騰訊發佈的2024年年報,騰訊2024年研發投入達706.9億元,資本開支連續四個季度實現同比三位數增長,年度資本開支更突破767億元,同比增長221%,創歷史新高。騰訊總裁劉熾平在財報電話會上表示,隨著AI能力和價值的逐步顯現,騰訊加大了AI投資,以滿足內部業務需求、訓練基礎模型,並支援日益增長的推理需求。據悉,騰訊AI戰略進入重投入期。騰訊董事會主席兼首席執行官馬化騰表示,“數月前,我們重組了AI團隊以聚焦於快速的產品創新及深度的模型研發、增加了AI相關的資本開支、並加大了我們對原生AI產品的研發和行銷力度。我們相信這些加大的投資,會通過提升廣告業務的效率及遊戲的生命周期而帶來持續的回報,並隨著我們個人AI應用的加速普及和更多企業採用我們的AI服務,創造更長遠的價值。”無論是加大AI資本開支投入,還是屢屢調整團隊增強AI研發及產品實力,其凸顯的都是AI大模型領域日漸激烈的競爭,尤其是各個科技大廠之間“硝煙瀰漫”的你追我趕狀態。事實上,面對飛速發展的AI行業,阿里巴巴、字節跳動等大廠也在頻繁地調整組織架構,通過更好地“排兵佈陣”來應對市場競爭。例如,在模型側擁有較強實力的阿里在去年12月的組織架構調整中,將通義千問和夸克一同歸入了“AItoC”類股。今年3月,阿里正式發佈了AI旗艦應用——新夸克。新夸克基於阿里通義的推理與多模態大模型,由舊夸克全面升級為無邊界的“AI超級框”,作為阿里“AItoC”的拳頭級產品,體現了阿里發力AI應用側的決心。前不久,字節跳動也進一步整合AI研發力量,將集團級核心研究部門AI Lab整體併入大模型部門Seed。據悉,為了應對新一輪大模型競爭,字節跳動籌建了獨立於原有組織架構的 Flow和Seed,前者做AI產品,後者做大模型研發。Seed自成立就在不斷吸納來自字節內外的人才,並於最近開啟了今年的Top Seed人才計畫,持續招募頂尖人才加入團隊。 (證券時報)